
诉讼频发,AI训练“盗用”版权内容,建立共享数据库迫在眉睫?
诉讼频发,AI训练“盗用”版权内容,建立共享数据库迫在眉睫?AI具备的能力,本质上来自算法和训练大模型所用的数据,数据的数量和质量会对大模型起到决定性作用。此前OpenAI工作人员表示,因没有足够多的高质量数据,Orion项目(即GPT-5)进展缓慢。不得已之下,OpenAI招募了许多数学家、物理学家、程序员原创数据,用于训练大模型。
AI具备的能力,本质上来自算法和训练大模型所用的数据,数据的数量和质量会对大模型起到决定性作用。此前OpenAI工作人员表示,因没有足够多的高质量数据,Orion项目(即GPT-5)进展缓慢。不得已之下,OpenAI招募了许多数学家、物理学家、程序员原创数据,用于训练大模型。
AI训练即将进入语料比拼阶段 Reddit 在过去的 2024 年算得上是容光焕发。这家创立了近 20 年的社交平台,去年 3 月在纽交所完成上市,并在上市后的第三季度实现首次盈利,到目前股票已涨到上市首日开盘价的 350% 左右。
大模型浪潮下,AI与其背后的通信网络存在密不可分的联系,可以总结为Network for AI和AI for Network两层关系—— 我们用网络加速AI训练推理,通过AI手段让网络变得更加安全可靠。
曾任OpenAI核心研发者的Suchir Balaji,于10月发文直指ChatGPT等生成式AI违背「合理使用」原则。然而,上月底26岁的他被发现离世,疑为自杀。马库斯发文悼念,称Suchir是个勇敢的年轻人,他对AI训练数据的版权问题提出的担忧「切中要害」。
因为比特币挖矿和AI训练都需要大量的能源和算力。两者的同步发展势必在电力和硬件资源上产生竞争。这意味着AI训练业务可能会受到比特币价格波动的影响,尤其是当矿工们争夺有限的硬件资源时。也就是说比特币价格的上涨,可能会带动AI训练成本的提升。
2024年7月22日凌晨,xAI创始人Elon Musk在推特上正式宣布,在凌晨4:20分正式启动了世界上最强的AI训练集群。 这个训练集群建设在美国田纳西州孟菲斯市,集合了10 万个液冷H100芯片。
LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。
谁更懂AI训练,是人类还是AI自己?
所有模型都是通过在来自互联网的海量数据上进行训练来工作的,然而,随着人工智能越来越多地被用来生成充满垃圾信息的网页,这一过程可能会受到威胁。
虽然英伟达的GPU在AI训练领域的主导地位仍然难以撼动,但似乎有迹象表明,在AI推理方面,竞争对手正在迎头赶上这家科技巨头,尤其是在能效方面。