避免黑产使用大模型推断用户隐私已迫在眉睫

7691点击 2024-07-06 15:52

摄影：匡达

大模型在产业端落地的成效逐渐显现，但隐藏的风险也被暴露出来。

大模型在训练环节使用的数据中包含很多个人信息，即使这些信息并没有直接暴露个人隐私，但在大模型强大的关联和推理能力下，很多隐私信息还是会被推断出来。

比如，用户询问大模型产品“哪一个家庭防盗系统在现在市面上是最好的”，在对话的过程中很可能会涉及对房屋门窗信息的描述，大模型会把这些数据和用户过往的询问数据以及其他用户的询问数据进行关联推理，来推断出用户的居住地址等隐私信息。

当用户和大模型产品进行语音交互时，大模型还可以通过方言或短语使用来推断用户位置或者统计某些人群特征信息。

此前，瑞士苏黎世联邦理工学院的研究者发现，为ChatGPT等聊天机器人提供支持的大型语言模型可以从看似无害的对话中，准确推断出数量惊人的用户个人信息，包括他们的种族、位置、职业等。

该团队研究者发现，网络诈骗等黑产团伙可以利用聊天机器人猜测敏感信息的能力，从毫无戒心的用户那里获取敏感数据。

正因为如此，避免网络诈骗等黑产团伙利用大模型推断个人隐私信息来实施犯罪行为，已经迫在眉睫。

在2024世界人工智能大会上，中国科学院院士、人工智能国际治理研究院学术委员会主席姚期智在谈及AI安全和风险相关问题时表示，在我们真的有能力能够训练出安全可靠的AI系统之前，先要确保AI不会伤害到人。

从技术角度来看，大模型泄露个人隐私可以归结到传统数据安全问题中。其中一个解决问题的技术路线就是，让大模型产品在不知道用户具体问题的前提下，能够给出用户想要的答案。这个路线听起来不太可能，但搜索引擎在过去很长一段时间内一直在探索可能的方案，也尝试了一些算法。

但姚期智表示，数据安全在大模型时代，多半的文章、研究都在比较初期的阶段。现在解决问题的方法是，发现一个问题，提出一个问题的解决方案，同时在此基础上去迭代出更好的解决方案。

简而言之，这种方法就是通过拼凑数据安全中的各种方法来达到目的，这些核心方法包括秘密共享、零知识证明、多方安全计算等。但这只能解决当下最迫在眉睫的问题，从长远来看，要真正解决AI安全的问题，还需要发展出一套更高效、系统化的理论。

从实践来看，业界提出了多种技术路径来系统化解决AI安全的问题。这些技术路径都有各自的逻辑，目前也很难证实哪一种路径更优。

加利福尼亚大学伯克利分校计算机系教授Stuart Russell在2019年提出了Beneficial AGI（有益的通用人工智能），其从博弈学角度出发，让AI与人类利益对齐，强调机器人应该以人的利益为本，并与人保持交流、时刻多了解人的需求。

在这种思路下，在设计机器人的时候，就要有一个数据规律，让机器人做所有决定时都要把以人的利益为本。如果机器人不清楚人类的需求，它要能够和人对话，了解人的需求到底是什么。

去年，麻省理工学院发表的一篇论文提供了另一种思路：做一个可证明的安全的AGI。这种思路用Proof Checkers（证明检验程序）来设计数学上绝对安全的AGI系统，让人类只和可证明安全的“白盒子”交流，这是一种严格限制机器应该做什么的思路。

而从理想的逻辑论证回归现实，大模型相关从业者给出了一些目前可落地的思路。

在蚂蚁密算CEO王磊看来，密算是大模型产业深入应用的必经之路。密算核心是提供机密性和完整性，机密性是指在数据使用过程中模型、访问信息是加密的，在这过程中人是看不见也使用不了这个数据。完整性是指数据和系统是不能够被篡改的，所有的数据在授权的时候，对行为进行了约束，能够防止别人滥用隐私数据。

香港科技大学首席副校长、香港城市人工智能研发中心主任郭毅可提出，区块链技术是另一种有前景的解决方案，可增强数据安全。区块链透明和不可更改的特性确保了数据的完整性，就像这个未经授权的修改或数据串改的风险。

在郭毅可看来，为了防止未经授权的访问和数据泄露，组织必须采取严格的安全措施，通过数据匿名化技术、用户同意和隐私设计原则，以及实施数据分类访问控制和加密方案方法，保护知识产权和防止未经授权的披露。

虽然业界在用户隐私保护上有各种各样的思路，但不可否认的是，真正解决大模型用户隐私保护的问题并没有那么容易。

联合国大学校长Tshilidzi Marwala在2024世界人工智能大会上表示，为紧迫解决AI安全带来的挑战，不同主体应该加强合作。“我们需要所有利益相关者参与进来，更深入理解人工智能朝着智能化进化过程中面临的挑战和风险。”

Tshilidzi Marwala提出的方案是建立一套更好的价值体系来帮助我们更好的进行人工智能的开发和使用以及治理，包括透明度、真实性还有安全性、职业道德、隐私保护等。

这个方案需要构建一整套法律框架，确保AI有道德的使用和负责任的使用，同时也更加关注到透明、问责和公平的问题，更加严格地落实数据保护要求，更严格构建AI标准。“我们需要更好的构建AI立法，不仅仅是法律的制定，帮助我们更好的治理AI发展，同时也要以一种有责任的形式使用AI、保护隐私。”

在2024世界人工智能大会上，清华大学人工智能国际治理研究院和阿里巴巴集团联合发布的报告《全球人工智能治理与中国方案(征求意见稿)》也展示了中国在AI安全治理的思路。报告提出，在解决AI安全治理难题时，应该保障不同人工智能治理框架和生态系统间的互操作性，即通过开放标准和开源技术，建立全球所普遍接受的人工智能安全协调机制、标准设定、评测体系。

“各个国家人工智能治理规则、规则包括办法，可能跟外部其他国家不一样，因为各个国家的文化、治理体系有很大差别，我们是尊重多元化的国内治理体系的存在。另外国际上我们又需要接口，所以互操作性变得非常重要，这个也是国际治理体系需要考虑的。”清华大学人工智能国际治理研究院副院长梁正表示。

本文来自“界面新闻”，记者：肖芳，编辑：文姝琪

避免黑产使用大模型推断用户隐私已迫在眉睫

关键词: 大模型 , AI , AI监管 , AI隐私 , AI安全

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/