AI资讯新闻榜单内容搜索-训练

next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

研究人员提出了一种新的大型语言模型训练方法，通过一次性预测多个未来tokens来提高样本效率和模型性能，在代码和自然语言生成任务上均表现出显著优势，且不会增加训练时间，推理速度还能提升至三倍。

来自主题: AI技术研报

9880 点击 2024-06-03 11:00

LLM的「母语」是什么？

在以英语为主的语料库上训练的多语言LLM，是否使用英语作为内部语言？对此，来自EPFL的研究人员针对Llama 2家族进行了一系列实验。

来自主题: AI技术研报

10603 点击 2024-06-03 10:53

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

刚刚，老黄又高调向全世界秀了一把：已经量产的Blackwell，8年内将把1.8万亿参数GPT-4的训练能耗狂砍到1/350；英伟达惊人的产品迭代，直接原地冲破摩尔定律；Blackwell的后三代路线图，也一口气被放出。

来自主题: AI技术研报

10106 点击 2024-06-03 10:48

他们在印度村镇训练AI

本文介绍了印度农村和小城镇成为AI数据标注中心的现状，以及数据标注师在AI产业中的重要性和挑战。数据标注公司在印度纷纷诞生，市场需求增长迅速。农村和小城镇超过80%的数据标注员来自印度，为AI产业注入新活力

来自主题: AI资讯

6446 点击 2024-06-03 09:06

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

3D 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场，在视图合成上取得了显著的成功。

来自主题: AI技术研报

10161 点击 2024-06-02 14:46

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。

来自主题: AI技术研报

9521 点击 2024-06-02 14:38

ChatGPT 负责人：GPT-4 越来越聪明是因为 post-traning，大模型短期没有数据瓶颈

John Schulman 是 OpenAI 联合创始人、研究科学家（OpenAI 现存最主要具有技术背景的创始人），他领导了 ChatGPT 项目，在 OpenAI 内部长期负责模型 post-traning，在 Ilya 和 Jan Leike 离开 OpenAI 后，下一代模型安全性风险相关的研究也会由 John Schulman 来接替负责。

来自主题: AI资讯

9693 点击 2024-06-01 19:11

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一，但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今，合成数据集正成为一种新兴的，用于替代现实世界数据的方法，但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频，而这并不适用于人群的视频识别任务。

来自主题: AI技术研报

10735 点击 2024-06-01 19:06

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

乘法和排序也有效。

来自主题: AI技术研报

9306 点击 2024-06-01 19:00

ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

LLM有记忆能力吗？有，也没有。虽然ChatGPT聊天时好像可以记住你之前说的话，但实际上，模型在推理时记不住任何内容，而且它们在训练时的记忆方式也不像我们想象的那么简单。

来自主题: AI技术研报

9339 点击 2024-06-01 18:08