ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
170000+视频被悄悄喂给AI训练,苹果英伟达等都在用,创作者毫不知情
7965点击    2024-07-17 19:11

AI侵权又来了……


最新消息,苹果、英伟达、Anthropic等大型AI公司被曝违规使用油管数据训练模型。


来自48000个频道的173536个视频的字幕,在博主不知情情况下,被喂给了世界上最先进的AI们。


范围波及可汗学院、MIT、华尔街日报、吉米秀以及大V博主等频道。


但是!


油管现在可能还没法直接起诉这些公司……


因为他们不是自己上手去扒数据,而是通过一个公开数据集


非营利组织Eleuther AI收集了这些数据,供AI研究和开发使用。


熟悉的感觉又来了——当初艺术家因不满自己的作品被用于AI模型训练,但数据集也不是AI公司自己上手扒的,而是来自非营利机构LAION。


有人就说,几乎所有模型都是在未经授权情况下使用数据训练的……这件事如果能让更多人意识到数据所有权的问题,那也算件好事。



目前,英伟达拒绝置评,苹果未予回应。


油管字幕数据是座“金矿”


这次被发现涉嫌违规使用油管数据的公司有:苹果、英伟达、Anthropic、Saleforeces、Databricks等。


发现这件事的机构是Proof News。


他们构建了一个工具,可以让博主自行搜索自己的视频是否被用于训练模型。



Anthropic方面已对此做出回应:


这个数据集确实包含油管上的一小部分字幕。但是油管的规定是直接使用会侵权,这和使用数据集不是一个性质,我们建议去询问数据集的作者。

Salesforce表示确实使用该数据集训练了用于学术研究目的的模型,并强调该数据集是公开可用的。


该数据集的提供方是Eleuther AI,他们曾推出了60亿参数的GPT-J,在当时被认为是最逼近于GPT-3的开源模型。


在2020年,他们发布了一个名为“Pile”的开源数据集,包含油管、维基百科等数据,供AI研究人员和开发者使用。如上几家公司提到的数据集,说的就是它。


目前Eleuther AI也未对此事做出回应。



一些发现被侵权的博主已经发声,表示这就是砸饭碗呀。



另外,这些被使用的数据也存在风险,Proof News表示油管上的字幕数据不少都包含脏话、偏见等。


但不可否认,油管上的数据是座“金矿”。


今年早些时候,OpenAI被曝使用语音模型转录了100万小时的油管视频来训练GPT-4。《纽约时报》说它们在2021年已经用完了所有可用数据,并讨论了把播客、油管视频等有声数据转成文字数据来使用。


网友:这也无解呀


实际上,AI侵权的类似案例已经不少了,比如之前艺术家不满Stability AI,情况几乎一模一样。


有人就觉得,这也不是大型公司在背后操控,现在似乎没有很好的解决办法。



对于更加直接的侵权事件,比如《纽约时报》指控OpenAI违规使用其作品训练模型,官司现在也还没有结果。


最新进展是,OpenAI要求《纽约时报》证明其作品的原创性,还要查看采访笔记等来证明每篇文章的原创性。《纽约时报》进行了反驳……



不过有意思的是,科技网站Ars Technica发现自己发在油管上的视频也被使用了。


但这些视频的文案内容是他们用AI写的。


Proof News也提到,被使用的油管数据里还包括鹦鹉学舌的视频。


也就是说,AI现在正在模仿人类、模仿英语、以及模仿其他AI……


文章来源于“量子位”,作者“关注前沿科技


关键词: AI , AI训练 , AI视频 , 模型训练