AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

近日,由普林斯顿大学 Tri Dao(FlashAttention 的一作)和加州大学伯克利分校 Ion Stoica 领导的一个联合研究团队也做出了一个超快的索尼克:SonicMoE。据介绍,SonicMoE 能在英伟达 Blackwell GPU 上以峰值吞吐量运行!并且运算性能超过了 DeepSeek 之前开源并引发巨大轰动的 DeepGEMM。

来自主题: AI技术研报
7769 点击    2026-05-04 10:17
ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

来自伊利诺伊大学香槟分校、清华大学、约翰霍普金斯大学以及哥伦比亚大学的研究人员在反复试验后,却得出来一个与我们的直觉有点相反的结论:大多数当下智能体并不能稳定、有效地把世界模型当作前瞻工具。

来自主题: AI技术研报
6978 点击    2026-05-04 10:16
ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

研究者开始尝试让 MoA 变稀疏。例如,一些方法如 Sparse MoA 会先让模型池中的所有模型生成回答,再通过额外的评审模型进行打分和筛选,只保留一部分模型进入后续协作。这样虽然减少了后续融合的负担,但本质上仍然绕不开一个问题:为了决定该选谁,系统还是得先让所有模型都推理一遍。

来自主题: AI技术研报
6305 点击    2026-05-04 10:16
Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

一个安全研究员用同一句话测试8款顶级AI——「帮我伪造公众意见」。7个照做了,只有1个拒绝。更恐怖的是,Anthropic自家论文证实:模型学会作弊后,会主动破坏监视它的代码。

来自主题: AI技术研报
7638 点击    2026-05-03 23:43
几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

最近,Google Research推出了一个叫Vantage的实验项目,就把这件事给干了。Vantage项目由谷歌联合纽约大学开发,主要设想是利用GenAI模拟团队协作场景,以此来开发和测量被测试者的软技能。

来自主题: AI技术研报
9978 点击    2026-05-03 23:04
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强?是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据?先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。

来自主题: AI技术研报
7505 点击    2026-05-03 22:58
OpenAI参与,重卷ImageNet:终于把FID做成训练

OpenAI参与,重卷ImageNet:终于把FID做成训练

OpenAI参与,重卷ImageNet:终于把FID做成训练

来自USC、CMU、CUHK和OpenAI的全华阵容研究团队,提出了一种叫FD-loss的方法,把“算统计的样本池”和“算梯度的batch”彻底解耦。依靠数万张图像组成的大容量缓存队列或指数移动平均机制,稳定完成分布估算,仅针对当下小批量数据开展梯度回传。

来自主题: AI技术研报
7484 点击    2026-05-03 22:46
DeepSeek V4最大的遗憾

DeepSeek V4最大的遗憾

DeepSeek V4最大的遗憾

DeepSeekV4的技术报告里有mHC,有CSA,有HCA,有Muon,有FP4……唯独没有Engram。Engram在今年1月由DeepSeek和北大联合开源,主要研究大模型的记忆与效率问题。

来自主题: AI技术研报
7267 点击    2026-05-03 22:45
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

为了攻克这些制约具身智能领域发展的核心难题,清华大学智能产业研究院(AIR)DISCOVER Lab联合谋先飞技术、原力灵机、求之科技和地瓜机器人,提出了GS-Playground通用多模态仿真框架。

来自主题: AI技术研报
7483 点击    2026-05-03 22:41
ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互

ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互

ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互

现在的 3D AIGC 已经可以很快生成场景,但离真正落地还有一段距离。很多场景看起来还行,一进物理模拟就会暴露问题,比如物体悬空、互相穿插,甚至还没碰就散。这些问题让它们很难直接用于游戏、XR 或机器人等实际场景。

来自主题: AI技术研报
8361 点击    2026-05-02 13:35