社交平台Bluesky近期爆火,有人认为它可能取代X(原Twitter)。
作为新晋的社交平台,Bluesky在上周已突破2000万用户。在过去一周,Bluesky每天都有将近100万的新用户注册。特别是在美国大选结果揭晓后,大量的用户离开马斯克的X,转向Bluesky。
11月26日,Hugging Face的一位机器学习图书管理员Daniel van Strien发布了一个数据集,该数据集包含从Bluesky的firehose API收集到的100万篇用户公开帖子,每个帖子都包含文本内容、元数据等相关信息,可用于机器学习研究和社交媒体数据的训练。
根据数据集介绍,Bluesky数据集并不是匿名的,而是包含Bluesky公共帖子及其关联的公共元数据,其中有大量的个人信息和敏感信息。不仅如此,van Strien还同时发布了一个名为Bluesky DId Lookup的应用,方便根据用户的去中心化标识符(DID)来快速查找特定用户。
该数据集一经发布,就在Hugging Face上广受欢迎。
尽管数据集描述中已提示使用者应当以负责任和合乎道德的方式使用数据,不应对用户信息去匿名化或汇总,并尊重用户隐私和平台服务条款等,但仍收到了许多网友的反对意见。
上传者意识到这种方式违反了数据收集的透明度和同意原则,最终删除了数据集。
前面我们提到该数据集是通过Bluesky的firehose API收集的,firehose API也是Bluesky与其他社交媒体平台不同的原因之一。
Bluesky设立之初的目标在于打造“开放且去中心化的社交媒体平台”,让用户能够控制自己的数据,享受开放、透明、自由的社交媒体环境。
但Bluesky的开放API,也意味着任何人都可以爬取Bluesky上的平台数据来训练AI,这也给Bluesky带来一定的挑战。如何在保持开放性的同时,保护用户数据,Bluesky需要综合考量技术和法律后给出解决方案。
尽管此前Bluesky已明确表示,他们没有使用用户发布的内容来训练生成式人工智能,也没有相关的AI训练计划。
但本次数据爬取事件发生后,引发了大量用户的讨论和担忧。
Bluesky也做出回应:与互联网上的大部分网站非常相似,Bluesky是一个开放的公共社交网络。Bluesky可以通过robots.txt协议来表明是否同意外部公司抓取其数据,他们正在研究类似的做法。例如,用户可以设置是否同意外部开发者在人工智能训练数据集中使用他们的内容,但是否遵循用户的设置仍取决于外部开发者。Bluesky表示他们正在积极与工程师和律师沟通,以尽快寻求解决方案。
随着用户量的飙升,Bluesky也开始被监管部门盯上了。
上周一,欧盟委员会发言人称Bluesky违反了欧盟法规,未能在其平台公开披露欧盟区域的用户数量。
根据欧盟《数字服务法案》(Data Services Act,简称DSA)第24条的规定:
服务于欧盟市场的在线平台服务提供方应至少每六个月一次在其平台的在线界面的公开区域,公布其服务在欧盟区域内的平均月活跃用户信息。
此外,如果企业在欧盟每月拥有至少4500万活跃用户,则意味着欧盟委员会可指定符合条件的服务提供者为“超大型在线平台”(Very Large Online Platforms,简称VLOPs)或者超大型在线搜索引擎(Very Large Online Search Engines,简称VLOSEs)。
如企业被指定为VLOP或VLOSE,根据DSA的规定,企业需要履行额外且更严格的合规义务,包括开展风险评估、提交独立审计报告、向监管部门提供必要的数据访问权限以及提交具体详尽的透明度报告。
如违反DSA的规定,企业可能将面临最高为其上一财政年度全球销售额的6%的罚款。
根据Bluesky目前的用户体量,尽管尚未达到4500万的月活跃用户门槛,距离“超大型在线平台”仍有一定距离。但按照Bluesky目前的用户增长趋势,似乎离被指定为VLOP也不是很遥远了,这也意味着Bluesky需要在符合欧盟规定上花更多的功夫。
1.出海欧盟的在线平台服务提供方,应至少每六个月一次,公布在欧盟区域内的平均月活跃用户情况,并遵守欧盟法律法规的相关规定。
2.使用第三方发布的数据集,需要高度警惕数据来源、数据后续处理行为的合法性,类似于 Bluesky这样来源的数据集,合规使用的难度较大。
3.开放API的方式,如果没有具备配套的合规措施,可能会造成用户个人信息的泄露,风险较高。
陈 焕 律师
陈焕律师,《法律人ChatGPT应用指南》作者,北京市隆安(广州)律师事务所律师、隆安湾区人工智能法律研究中心主任、隆安广州数字经济部副部长、广东财经大学法学院人工智能法研究中心兼职研究员、国家工业信息安全发展研究中心《生成式人工智能数据应用合规指南》标准起草人、广州市涉外律师领军人才。
李琪瑶 律师
李琪瑶律师,英语专业八级。现为北京市隆安(广州)律师事务所律师,隆安湾区人工智能法律研究中心研究员。李琪瑶律师擅长人工智能、数据合规、知识产权诉讼和非诉业务、民商事争议解决事务。
文章来自微信公众号“AI合规圈”,作者“陈焕 李琪瑶”
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/