这几年,人们都在谈论大模型。特别是在 Scaling Law 的指导下,人们寄希望于将更大规模的数据用于训练,以无限提升模型的智能水平。在中国,「数据」作为一种与土地、劳动力、资本、技术并列的生产要素,价值越来越被重视。
近年来,中国数据要素市场化建设的步伐明显提速。让「数据」发挥价值的关键在于不同主体、不同场景下的数据流通复用。数据要素跟传统的生产要素有本质差别,数据的价值具有双面性,业务价值越大,风险成本越高。营造数据可信流通可信环境,则是让数据要素价值充分释放的底层支撑。
在这样的背景下,隐私计算技术的价值逐渐凸显,成为了学界和业界关注的焦点。从概念诞生之日起,隐私计算用了近 40 年从一门前沿理论,延伸到了产业应用之中。但隐私计算能否成为数据要素流通市场的 “基石技术”,还需要扫清一系列障碍。
数据以密态形式流转将成为未来的趋势,传统的隐私计算技术已经不能满足新形势的要求。一方面是传统隐私计算主要关注多方合作场景下的计算安全,缺乏整体性的安全视角,无法满足数据大规模流通过程中新的场景和角色引入带来的额外风险(如运维者风险,加工者风险),其次需要针对不同安全等级的数据采用不同安全分级的技术方案,才能最大程度降低隐私计算的落地成本,因此推动行业标准化变得尤为重要。
在 2024 年世界人工智能大会上,产学研届带来了全新的探索和实践。7 月 5 日,围绕「隐私计算产品通用安全分级」和「个人信息匿名化制度」,国内多家产学研机构联合发布两份白皮书,为数据要素流通行业当下普遍遇到的挑战,提供最新的技术思考和行业实践。
我们需要怎样的隐私计算技术标准体系?
隐私计算是一门综合性的跨学科技术,交叉融合了密码学、人工智能、计算机硬件等众多领域知识,目前已形成多方安全计算、联邦学习、可信执行环境等技术路线。
推动数据要素可信流通,需要技术研发与标准制定通力配合。在隐私计算技术的各个方向中,仍有大量标准制定工作待完成,产学研届普遍认为,「数据跨域管控」、「受控匿名化」和「通用安全分级」三个方向值得关注。
数据跨域管控的目的是在数据共享和流动的过程中,确保数据不会被未经授权的实体访问或篡改,同时遵守相关的法律法规和隐私政策。作为新型生产要素,数据发挥价值的关键在于不同主体、不同场景下的数据流通复用,但这一流程通常存在「责任主体不清、利益诉求不一致、能力参差不齐、责任链路难追溯」的风险。
受控匿名化通常用于确保数据在使用和分析时,不会泄露个人隐私信息,同时还保持数据的实用性和准确性。我国的《网络安全法》和《个人信息保护法》特别设置了「个人信息匿名化条款」,将匿名化后的个人数据排除在个人信息保护之外,但法律内涵和实施标准却有待厘清。事实上,个人信息匿名化条款存而不用,已经成为数据交易流通和数据要素市场建构的最大瓶颈之一。
此外,在隐私计算中,通用安全分级能帮助确定各类产品最适合的保护措施,从而合理分配安全资源,并确保敏感数据得到适当的保护。当前,虽然针对单一技术路线已经有一些安全分级标准,但是不同技术路线的分级标准完全无法对应,用户无法对所有的产品进行横向比较,这些标准也不适用于新出现的技术路线。
在产学研各界的深度合作下,我们已经看到了一些进展。
国内多家产学研机构,在这场大会达成共识
关于「数据跨域管控」问题,我们可以在 2023 年底出炉的一份白皮书中找到答案。
2023 年底,华东政法大学数据法律研究中心、蚂蚁集团牵头发布《数据跨域管控白皮书》,首次系统阐释了数据跨域管控的实践指引与策略,提出借助密态计算等技术手段,有效管控数据流通利用的风险。
白皮书从技术、法律和管理层面形成了三位一体的数据跨域管控解决方案,包括事前的数据脱敏、加密等数据治理机制,事中针对场景和安全等级界定使用范围等过程管控机制和事后的审计监督机制。
同时,白皮书还提出了与数据流通风险适配的五项管控技术要求,包括数据来源可确认、数据可用不可见、数据可算不可识、数据使用可界定、数据流通可追溯,并指导如何明确数据流通中各主体责任的可行方案,助力构建中国的可信数据流通参考架构。
关于「受控匿名化」和「通用安全分级」这两个命题,我们在前不久的 WAIC 大会上也看到了学界与业界的最新共识:
在 2024 世界人工智能大会上,国内多家产学研机构联合发布了《隐私计算产品通用安全分级》和《个人信息匿名化制度:技术与法律》两份白皮书。
隐私计算中的安全分级,向来存在多项难点。从产业实践的经验来看,不同技术路线、不同产品形态、不同应用场景下的隐私计算产品所面临的隐私数据泄露风险及安全需求存在巨大差异,在没有统一安全分级标准的情况下,产品开发方及使用方很难评估和衡量安全与性能之间的平衡。
深圳国家金融科技测评中心技术负责人罗丰曾表示,隐私计算技术在金融行业的应用程度比较领先,但规模化落地还存在技术和业务两方面挑战。隐私计算的路线是多样的,针对不同的应用场景需要有不同的安全和性能之间的平衡。从现有的测评和标准来看,在安全分级之前很难去评估一个产品整体的安全性和性能之间的差异性。而 “技术孤岛” 现象客观存在,技术无法互联互通可能导致不同的金融机构,会产生产品选型的分歧。此外,预期效益难以估计及投入成本高,导致很多中小型的金融机构不太有意愿推动隐私计算应用。
一个能适用于更多技术路线的、具备实操指导意义的通用安全分级方案,是隐私计算规模化落地不可缺少的。
基于上述现状,蚂蚁集团、中国通信标准化协会大数据技术标准推进委员会、深圳国家金融科技测评中心、清华大学等国内 16 家机构共同撰写了《隐私计算产品通用安全分级》白皮书。值得一提的是,编写指导组成员包括中国科学院院士、国际密码协会会士王小云,浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室副主任任奎等权威学者。
在这份白皮书中,产学研各方逐一讨论隐私计算安全分级面临的诸多难点,并给出了通用安全分级的设计思路。比如按照攻防效果分级来屏蔽不同技术路线差异,在「可证安全」和「不安全」之间增加一个「抵御已知攻击」的分级水位,引入软件信誉度等更多维度量化「实现安全」,明确所有各类技术特征与安全分级的对应关系。
中国银行隐私计算团队算法工程师石新蕾曾表示,受参与方数据的影响,不同的需求场景对安全的要求存在差异,通过分级可以为业务提供合适的安全保障水平,达到性能与安全的平衡,同时也能分配合理的计算资源,做到成本控制。其次,通过安全分级可以快速识别风险程度,不同的安全程度可以采取相应级别的监管控制措施来降低安全风险。合理的隐私计算产品安全评估标准与评级体系,有助于更好地理解和评估产品安全性,构建数据流通的信任机制,促进行业规范。
如何在个人隐私保护的基础上,实现数据价值开发,是产业界面对的另一个棘手挑战。个人数据是利用价值最高、使用场景最多样、处理措施最成熟的数据,如何在个人隐私保护的基础上实现数据价值开发,推动在不同行业、不同机构之间实现可信、安全的数据共享、开放、交易,是产学研届共同的探索方向。
其中,匿名化技术是个人数据隐私保护的一项重要有效手段。在我国数据基础设施的规划与建设过程中,也将个人信息匿名化相关处理技术与制度规范内容放在了重要位置。而从产业落地的角度,协同推动这一问题解决的关键在于建设、拓展出一套融合法律和技术的基础设施。
为此,基于《网络安全法》、《个人信息保护法》中设置的「个人信息匿名化条款」指导,对外经济贸易大学、大数据技术标准推进委员会和蚂蚁集团共同撰写了《个人信息匿名化制度:技术与法律(2024)》白皮书。
这是学术与产业界首次联合从技术与法律双重维度对个人信息匿名化问题做系统性梳理与阐释、探寻可落地技术方案与数据流通解决路径。
对外经济贸易大学数字经济与法律创新研究中心主任许可表示,匿名化制度的存而不用已经成为当前推动数据流通复用、发挥数据要素乘数效应的重大障碍之一。
当前,个人信息匿名化面临着三重困境:企业既担心匿名化措施难以达到法律要求而无效,又担心标准过高使匿名化信息丧失利用价值;监管机构担心匿名化成为个人信息处理者规避监管的工具;用户担心匿名化是个人信息处理者虚假的承诺。为破解困境,就必须从单一的匿名化法律视角转向复合的 “数据基础设施” 的路径。作为数据要素市场的基础架构,数据基础设施是面向社会的一体化数据汇聚、处理、流通、应用、运营、安全保障服务的新型基础设施,是覆盖硬件、软件、开源协议、标准规范、机制设计等在内的有机整体。基于此,匿名化条款可以拓展为一套融合法律和技术的基础设施,从而推动在不同行业、不同机构之间实现可信、安全的数据共享、开放、交易。
据此,个人信息匿名化制度采用 “事前推定匿名” 与 “事后判定匿名” 相结合的设计。事前 “推定匿名 “通过匿名化技术方案来完成,而事后 “判断匿名” 方式通过解释法律和完善责任来完成。在各种匿名化技术方案中,白皮书特别提出了 “受控匿名化 “措施。针对攻击者获取密钥后经假名化处理的直接标识符仍然有可能被还原的问题,可以让直接标识符采用假名化处理,假名化后的结果仅在受控空间使用,确保不会与密钥关联。针对开放空间中经匿名化技术处理的属性信息仍然可能被关联到个人身份的问题,白皮书提出让属性信息仅在受控空间使用,确保不会与开放空间数据关联。
从「技术标准」到「规模化落地」
在新的技术变革趋势下,构建全新的标准,最终是为了降低新技术在规模化落地时难度和企业成本,让更多市场主体也享受到技术带来的红利。
蚂蚁集团副总裁兼首席技术安全官韦韬曾表示,数据要素的跨域流通,面临 “责任主体不清,利益诉求不一致,能力参差不齐,责任链路难追溯” 等严峻风险,导致传统数据安全的信任基石遭到破坏,因此,数据要素的流通亟需构建全新的技术要求标准与技术方法体系。
面向未来,推动数据要素价值流通是一个系统性工程,需要社会各界协力合作,共同构建新的技术标准体系,让数据价值的流向千行百业。
文章来源于“机器之心”,作者“ 关注大模型的”