AI资讯新闻榜单内容搜索-模型训练

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

在 LLM 领域，扩大强化学习算力规模正在成为一个关键的研究范式。但要想弄清楚 RL 的 Scaling Law 具体是什么样子，还有几个关键问题悬而未决：如何 scale？scale 什么是有价值的？RL 真的能如预期般 scale 吗？

来自主题: AI技术研报

9736 点击 2025-10-19 17:54

麻省理工学院最新研究预示着人类距离能够自主学习的AI又迈出了关键一步。该研究推出了一种全新的自适应大模型框架「SEAL」，让模型从「被动学习者」变为「主动进化者」。

来自主题: AI技术研报

7326 点击 2025-10-19 12:39

在「具身智能」与「世界模型」成为新一轮 AI 竞赛关键词的当下，来自北京人形机器人创新中心、北京大学多媒体信息处理国家重点实验室、香港科技大学的中国团队开源了全新的世界模型架构。

来自主题: AI技术研报

8978 点击 2025-10-19 12:34

中科院的这篇工作解决了“深度搜索智能体”（deep search agents），两个实打实的工程痛点，一个是问题本身不够难导致模型不必真正思考，另一个是上下文被工具长文本迅速挤爆导致过程提前夭折，研究者直面挑战，从数据和系统两端同时重塑训练与推理流程，让复杂推理既有用又能跑得起来。

来自主题: AI资讯

8485 点击 2025-10-19 12:21

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

7277 点击 2025-10-19 12:06

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案，可以端到端优化真实的流策略，而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN，再用 GRU 门控和 Transformer Decoder 两套速度参数化。

来自主题: AI技术研报

8320 点击 2025-10-19 11:48

针对「大模型推理速度慢，生成token高延迟」的难题，莫纳什、北航、浙大等提出R-Stitch框架，通过大小模型动态协作，衡量任务风险后灵活选择：简单任务用小模型，关键部分用大模型。实验显示推理速度提升最高4倍，同时保证高准确率。

来自主题: AI技术研报

7396 点击 2025-10-18 12:21

AI拍长视频不再是难事！LongLive通过实时交互生成流畅画面，解决了传统方法的卡顿、不连贯等痛点，让普通人都能轻松拍大片。无论是15秒短片还是240秒长片，画面连贯、节奏流畅，让创作变得像打字一样简单。

来自主题: AI技术研报

8531 点击 2025-10-18 12:15

杜克大学和 Adobe 最近发布的 VERA 研究，首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统，使用了 2,931 道专门设计的测试题。

来自主题: AI技术研报

7910 点击 2025-10-18 12:08

空间智能领域的全景数据稀缺问题，有解了。影石研究院团队，推出了基于DiT架构的全景图像生成模型DiT360。通过全新的全景图像生成框架，DiT360能够实现高质量的全景生成。

来自主题: AI技术研报

7360 点击 2025-10-18 12:02