AI资讯新闻榜单内容搜索-训练

扩展强化学习：环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进，变得更为高效且价格更为亲民。在评估现实世界软件工程任务（如 SWE-Bench）时，模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报

5463 点击 2025-06-09 10:25

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

注意力机制的「平方枷锁」，再次被撬开！一招Fenwick树分段，用掩码矩阵，让注意力焕发对数级效率。更厉害的是，它无缝对接线性注意力家族，Mamba-2、DeltaNet 全员提速，跑分全面开花。长序列处理迈入log时代！

来自主题: AI技术研报

7018 点击 2025-06-08 15:27

8个数据集全面胜出！思维链推理刷新图学习表现上限

图神经网络还能更聪明？思维链提示学习来了！

来自主题: AI技术研报

5852 点击 2025-06-08 15:17

告别「失忆」AI！首个大模型记忆操作系统开源框架来了！

该项目来自百家 AI，是北京邮电大学白婷副教授所指导的研究小组，团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。

来自主题: AI技术研报

7216 点击 2025-06-08 15:07

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

多模态检索是信息理解与获取的关键技术，但其中的跨模态干扰问题一直是一大难题。

来自主题: AI技术研报

6326 点击 2025-06-08 14:46

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

来自主题: AI技术研报

6541 点击 2025-06-08 14:35

速递｜获a16z领投1700万美元，AI语音新星Toma意外切入汽车经销商，两周定制训练自动化

2024 年初，Monik Pamecha 联合创立 AI 语音初创公司 Toma 时，未曾料想自己会在盛夏时节汗流浃背地穿梭于圣经地带的汽车经销商之间。

来自主题: AI资讯

5964 点击 2025-06-08 11:42

喝点VC｜a16z合伙人：开发者市场或成为AI首个真正意义上的万亿级市场；当前模型最致命的缺陷是永远不愿承认"我不知道"

问题越常见，所需上下文越少。比如"写个博客网站"这类典型教学案例，模型生成这类代码易如反掌。但面对缺乏训练数据的新颖需求时，你必须精确描述需求、提供API文档等完整上下文，难度会指数级上升。

来自主题: AI资讯

6199 点击 2025-06-08 11:36

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗，基于数字世界训练的AI模型性能提升速度明显放缓。与此同时，物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据，这些数据远未被有效利用，成为AI发展的下一个重要方向。

来自主题: AI资讯

6716 点击 2025-06-07 15:09

你永远叫不醒装睡的大模型！多轮对话全军覆没，性能暴跌39%

20万次模拟实验，耗资5000美元，证实大模型在多轮对话中的表现明显低于单轮对话！一旦模型的第一轮答案出现偏差，不要试图纠正，而是新开一个对话！

来自主题: AI技术研报

5967 点击 2025-06-07 15:01

AI资讯新闻榜单内容搜索-训练

扩展强化学习：环境、奖励黑客、智能体、数据扩展

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

8个数据集全面胜出！思维链推理刷新图学习表现上限

告别「失忆」AI！首个大模型记忆操作系统开源框架来了！

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

速递｜ 获a16z领投1700万美元，AI语音新星Toma意外切入汽车经销商，两周定制训练自动化

喝点VC｜a16z合伙人：开发者市场或成为AI首个真正意义上的万亿级市场；当前模型最致命的缺陷是永远不愿承认"我不知道"

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

你永远叫不醒装睡的大模型！多轮对话全军覆没，性能暴跌39%

速递｜获a16z领投1700万美元，AI语音新星Toma意外切入汽车经销商，两周定制训练自动化