AI资讯新闻榜单内容搜索-训练

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报

7571 点击 2024-11-22 16:46

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报

10160 点击 2024-11-22 15:54

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

最近，Jim Fan参与的一项研究推出了自动化数据生成系统DexMimicGen。该系统可基于少量人类演示，合成类人机器人的灵巧手运动轨迹，解决了训练数据集的获取难题，而且还提升了实验中机器人的表现。

来自主题: AI技术研报

8003 点击 2024-11-22 14:33

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

Scaling Law撞墙，扩展语言智能体的推理时计算实在太难了！破局之道，竟是使用LLM作为世界模型？OSU华人团队发现，使用GPT-4o作为世界模型来支持复杂环境中的规划，潜力巨大。

来自主题: AI技术研报

6961 点击 2024-11-22 13:38

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

今年 4 月，AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。

来自主题: AI资讯

7543 点击 2024-11-22 10:18

Dario Amodei：Scaling Law 还没遇到上限

Powerful AI 预计会在 2026 年实现，足够强大的 AI 也能够将把一个世纪的科研进展压缩到 5-10 年实现（“Compressed 21st Century”），在他和 Lex Fridman 的最新对谈中，Dario 具体解释了自己对于 Powerful AI 可能带来的机会的理解，以及 scaling law、RL、Compute Use 等模型训练和产品的细节进行了分享

来自主题: AI资讯

9958 点击 2024-11-22 10:06