日前有网友发现沉浸式翻译扩展程序的部分用户数据暴露在互联网上,这些数据包含部分敏感内容例如加密货币钱包私钥甚至是企业 / 机构的商业合同等。
严格来说此次问题并非安全漏洞而是沉浸式翻译提供的功能存在缺陷,即没有对快照链接进行保护导致搜索引擎爬虫可以直接抓取内容并将其放置互联网上公开索引。
注:以上索引链接已经无法访问,但泄露的数据库仍然可以提取数据
事件发生原因:
对于沉浸式翻译用户,该扩展程序提供将翻译后的网页或 PDF 文件生成快照,生成快照后同时还会生成共享链接用于将链接分享给其他用户。
沉浸式翻译显然也高估了用户的专业程度,部分用户使用沉浸式翻译对敏感内容进行翻译并且还生成快照,这里面就存在两种安全方面的问题。
第一是除了本地翻译模型外,使用任何第三方模型时都需要将数据发送给第三方进行翻译,因此敏感内容使用沉浸式翻译或者其他翻译服务都可能导致数据泄露,尤其是使用 AI 翻译时数据可能会被 AI 模型提供商拿去训练数据,这将严重危害用户的数据安全。
第二是沉浸式翻译提供的快照功能会直接将翻译后的内容暴露在互联网上,以商业合同为例,合同内可能包含大量的商业机密,用户使用沉浸式翻译搭配 AI 服务时不仅会将商业机密泄露给 AI 模型提供商,还会导致完整的商业合同直接暴露到互联网上。
沉浸式翻译的问题在哪:
沉浸式翻译提供的快照功能存在缺陷,即没有做好必要的安全措施对内容进行保护,导致搜索引擎可以直接抓取内容以至于引起大量的用户数据泄露。
同时沉浸式翻译没有做好必要的提醒,提醒用户对于敏感内容不要生成快照以免出现数据泄露,这个问题其实和 OpenAI 早前在 ChatGPT 里增加对话共享的搜索引擎抓取本质是相同的问题。
未来沉浸式翻译或许可以考虑参考诸如百度网盘等强制分享时设置密码,只有同时拿到链接和密码的用户才能访问内容,这样既可以避免搜索引擎抓取,也可以避免其他专业的机器人进行抓取。
数据已经在网上流传:
另外需要强调的是目前网上已经流传名为 readit.site.tar.zst 的 559.6MB 文件,这份文件里包含的全部是沉浸式翻译 readit.plus 里生成的快照,其中包含大量的敏感内容。
对于曾经使用过沉浸式翻译快照功能的用户建议仔细想想自己是否使用过快照功能以及是否存在数据泄露的可能性,目前没有彻底的补救方法,数据一旦公布到互联网上就不可能被永久清除。
文章来自 “ 蓝点网 ”
【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。
项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/