AI资讯新闻榜单内容搜索-模型训练

训练数据枯竭怎么办？首篇「数据价值密度」综述理清思路

当训练数据枯竭、训练成本飙升，大语言模型（LLM）训练之路该何去何从？

来自主题: AI技术研报

6141 点击 2026-05-15 09:54

突破三维感知瓶颈：魔芯科技发布VGGT系列成果，实现动态高保真重建并获新一轮融资

在迈向通用人工智能（AGI）的过程中，世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力，被广泛认为是世界模型的首要前提。通常来说，一个成熟的世界模型需要具备三大核心能力：对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。

来自主题: AI技术研报

9282 点击 2026-05-14 15:03

0成本升级，快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代

针对生成式检索范式在电商搜索场景下面临的复杂查询理解不足、用户潜在意图挖掘乏力、奖励系统易过拟合历史窄偏好等落地瓶颈，快手技术团队在已规模化部署的工业级生成式搜索框架 OneSearch 基础上，发布了一篇系统性升级的研究论文，正式推出新一代框架 OneSearch-V2。

来自主题: AI技术研报

9243 点击 2026-05-14 14:25

ACL 2026｜打破推理同质化！阿里达摩院新作让RLVR从重复采样走向有效探索

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架，通过改进 rollout 策略引导模型生成更多样化的推理轨迹，将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”，在多个数学基准上同时提升准确率与语义多样性，最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main，来自阿里达摩院 - 智能决策团队。

来自主题: AI技术研报

9849 点击 2026-05-14 14:24

蚂蚁灵波开源LingBot-VLA后训练代码！150条示教数据即可适配新机器人

就在刚刚，蚂蚁集团旗下具身智能公司灵波科技传出新动作—— 全面开源其具身基座模型LingBot-VLA的真机后训练工具链。

来自主题: AI技术研报

7470 点击 2026-05-14 10:01

微软Terminus-4B之后，Agent可能会进入「专用小模型Sub Agent」时代

您有没有想过：在代码Agent里，执行终端命令、跑测试、读报错、总结日志这种任务，用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行，是不是有点浪费？一定要这么做吗？

来自主题: AI技术研报

8108 点击 2026-05-14 10:01

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

当下的大模型后训练（Post-training）pipeline 中，On-Policy Distillation（OPD）已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5，业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习（RL）稀疏的结果奖励，OPD 提供了密集的 Token 级别监督信号，看起来就像是一顿「免费的午餐」。

来自主题: AI技术研报

10494 点击 2026-05-14 09:59