AI资讯新闻榜单内容搜索-模型训练

硅谷豪赌算力烧到停电，中国团队反向出击！这一刀，直接砍碎Scaling Law

思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM双杀过度思考，推理token砍75%，网友们惊呼：这就是下一代AI模型的发展方向！

来自主题: AI技术研报

10084 点击 2026-02-11 14:43

首个统一系统：将物理机器人提升为与 GPU 同等的计算资源，打破硬件隔阂。

来自主题: AI技术研报

8509 点击 2026-02-11 14:00

在十九世纪的暹罗王国曾诞生过这样一对连体兄弟：他们分别拥有完整的四肢和独立的大脑，但他们六十余年的人生被腰部相连着的一段不到十厘米的组织带永远绑定在了一起。他们的连体曾带来无尽的束缚，直到他们离开暹罗，走上马戏团的舞台。十年间，两兄弟以近乎合二为一的默契巡演欧美，获得巨大成功。

来自主题: AI技术研报

5365 点击 2026-02-11 13:59

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

6781 点击 2026-02-11 13:58

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室，核⼼贡献者包括任麒冰、郑志杰、郭嘉轩，指导⽼师为⻢利庄⽼师和邵婧⽼师，研究⽅向为安全可控⼤模型和智能体。最近，Moltbook 的爆⽕与随后的迅速

来自主题: AI技术研报

9477 点击 2026-02-11 12:32

谁能想到啊，在自回归模型（Autoregressive，AR）当道的现在，一个非主流架构的模型突然杀了回马枪——被长期视为学术玩具的扩散语言模型，直接在复杂编程任务中飙出了892 tokens/秒的速度！

来自主题: AI资讯

10067 点击 2026-02-11 10:47

以DeepSeek R1为代表的一系列基于强化学习（RLVR）微调的工作，显著提升了大语言模型的推理能力。但在这股浪潮背后，强化微调的代价却高得惊人。

来自主题: AI技术研报

9019 点击 2026-02-10 14:19

2026 年刚拉开序幕，大模型（LLM）领域的研究者们似乎达成了一种默契。当你翻开最近 arXiv 上最受关注的几篇论文，会发现一个高频出现的词汇：Self-Distillation。

来自主题: AI技术研报

6206 点击 2026-02-10 14:17

当物体在滚动、滑动、被撞飞，机器人还在执行几百毫秒前的动作预测。对动态世界而言，这种延迟，往往意味着失败。

来自主题: AI技术研报

9772 点击 2026-02-10 14:13

文本摘要作为自然语言处理（NLP）的核心任务，其质量评估通常需要兼顾一致性（Consistency）、连贯性（Coherence）、流畅性（Fluency）和相关性（Relevance）等多个维度。

来自主题: AI技术研报

8665 点击 2026-02-10 14:11