AI资讯新闻榜单内容搜索-预训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 预训练
τ0-WM:最大规模预训练的开源具身世界模型来了

τ0-WM:最大规模预训练的开源具身世界模型来了

τ0-WM:最大规模预训练的开源具身世界模型来了

刚刚,上海创智学院副教授、智元机器人首席科学家罗剑岚带队,发布全球最大规模的开源预训练具身世界模型——τ0-World Model(τ0-WM)。整个τ0-WM参数量达到5B,预训练数据规模高达约3万小时。其中,真机遥操作数据第一次成了绝对主力,占到了1.78万小时。

来自主题: AI技术研报
9147 点击    2026-05-31 19:39
数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

我去搜了下 MiniCPM5-1B 的数据,发现面壁智能刚刚把背后的核心数据集给开源了。一共是两份 L3 级数据集:Ultra-FineWeb-L3 :600B tokens,中英文都有,是目前最大的中文开源合成预训练数据集。

来自主题: AI技术研报
8363 点击    2026-05-30 10:06
刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

2026 年初,国内具身智能赛道掀起了一波开源潮,越来越多团队开始公开自己的视觉-语言-动作(VLA)模型、数据集与训练框架。与此同时,行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上,尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报
7996 点击    2026-05-29 09:19
Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

过去十年,大模型世界里很多最关键的技术路线背后,都能看到Andrew Dai的身影。从早期预训练与监督微调,到后来主流的MoE(Mixture of Experts)架构;从Google Brain最初只有几十人的研究时代,到后来支撑Gemini的大规模数据体系,这位在 Google 工作超过14年的研究科学家,几乎站在了大模型时代每一次关键转折的现场。

来自主题: AI资讯
8972 点击    2026-05-27 16:31
22.9倍加速!FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

22.9倍加速!FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

22.9倍加速!FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR—— 一个轻量级的后训练加速框架。不需要从头训练,在 Emu3.5-Image-34B 模型上,仅用原始训练数据的 0.05%(约 8 万张图片),就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash,实现最高 22.9 倍的端到端加速。

来自主题: AI技术研报
8354 点击    2026-05-24 10:07
独家|ChatGPT核心贡献者姜旭归国创业:把LLM的Scaling带到具身智能

独家|ChatGPT核心贡献者姜旭归国创业:把LLM的Scaling带到具身智能

独家|ChatGPT核心贡献者姜旭归国创业:把LLM的Scaling带到具身智能

姜旭是少数完整参与过 OpenAI 大模型核心技术演进的华人创业者之一。2019 至 2023 年间,他经历了 GPT 系列能力爆发最关键的阶段,工作横跨底层训练 infra、大规模预训练、RLHF 对齐算法与数据构建等核心链路。

来自主题: AI资讯
10196 点击    2026-05-22 10:26
深度|Karpathy为何突然加入Anthropic,只能当Dario的「-2」?

深度|Karpathy为何突然加入Anthropic,只能当Dario的「-2」?

深度|Karpathy为何突然加入Anthropic,只能当Dario的「-2」?

5 月 19 日,OpenAI 联合创始人、「Vibe Coding」之父 Andrej Karpathy 宣布加入 Anthropic 预训练团队。他将组建新团队,用 Claude 加速预训练研究。一个做过Hinton和李飞飞学生、奥特曼同事、马斯克直属下属的人,为什么甘愿做 Dario Amodei 的「-2」?Anthropic 又为什么非要招他?

来自主题: AI资讯
9791 点击    2026-05-20 10:14
解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1,不改架构、不要3D数据,纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单:预训练的视频模型里面已经有 3D 知识了,只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报
8528 点击    2026-05-16 13:34
百度最强模型来了!五大场景深度实测,搜索能力突出

百度最强模型来了!五大场景深度实测,搜索能力突出

百度最强模型来了!五大场景深度实测,搜索能力突出

今日,百度推出新一代基础模型文心5.1。百度称,文心5.1将总参数压缩至约1/3、激活参数压缩至约1/2,使用业界同规模模型约6%的预训练成本,实现同级别模型基础效果领先。不过,百度并未明确说明这一“6%成本”的具体对标模型范围与口径。

来自主题: AI资讯
8633 点击    2026-05-09 21:29