AI资讯新闻榜单内容搜索-模型训练

Agent2025年终报告来了，UC伯克利、斯坦福和IBM联合发布

2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷，并深度访谈了20个已经成功落地并产生价值的一线企业案例（涵盖金融、科技、医疗等领域）。试图回答一个最朴素的工程问题：一个能用的、赚钱的Agent，到底是用什么架构搭出来的？

来自主题: AI技术研报

6426 点击 2025-12-08 08:52

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

当问题又深又复杂时，一味上最强模型既贵又慢。测试时扩展能想得更久，却不一定想得更对。

来自主题: AI技术研报

9724 点击 2025-12-08 08:51

浙大00后硕士破局AI记忆难题！新技术让长对话响应速度快十余倍

走上了堪称是“最佳 AI 转型路径”之后，他也在读研期间和合作者针对 AI 记忆开展了一项研究，借此发明出一种名为 LightMem（轻量记忆）的技术。在 LongMemEval 和 LoCoMo 这两个专门用于考察 AI 长期记忆能力的基准测试上，LightMem 回答问题的准确率全面超越之前的冠军模型，最高提升了 7% 以上，在某些数据集上甚至提升了将近 30%。

来自主题: AI技术研报

7564 点击 2025-12-06 11:15

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」，过程感知视频理解如何找到「状态」锚点？

在具身智能与视频理解飞速发展的今天，如何让 AI 真正 “看懂” 复杂的操作步骤？北京航空航天大学陆峰教授团队联合东京大学，提出视频理解新框架。该工作引入了 “状态（State）” 作为视觉锚点，解决了抽象文本指令与具象视频之间的对齐难题，已被人工智能顶级会议 AAAI 2026 接收。

来自主题: AI资讯

7413 点击 2025-12-06 11:13

谷歌新架构突破Transformer超长上下文瓶颈！Hinton灵魂拷问：后悔Open吗？

两项关于大模型新架构的研究一口气在NeurIPS 2025上发布，通过“测试时训练”机制，能在推理阶段将上下文窗口扩展至200万token。两项新成果分别是：Titans：兼具RNN速度和Transformer性能的全新架构；MIRAS：Titans背后的核心理论框架。

来自主题: AI技术研报

7272 点击 2025-12-06 11:10

基于文本AI的终结？Agent协作可直接「复制思维」，Token效率暴涨

一直以来，传统 MAS 依赖自然语言沟通，各个 LLM 之间用文本交流思路。这种方法虽然可解释，但冗长、低效、信息易丢失。LatentMAS 则让智能体直接交换内部的隐藏层表示与 KV-cache 工作记忆，做到了：

来自主题: AI技术研报

7309 点击 2025-12-06 11:08

首帧的真正秘密被揭开了：视频生成模型竟然把它当成「记忆体」

在 Text-to-Video / Image-to-Video 技术突飞猛进的今天，我们已经习惯了这样一个常识：视频生成的第一帧（First Frame）只是时间轴的起点，是后续动画的起始画面。

来自主题: AI技术研报

8250 点击 2025-12-06 11:03

告别「2D错觉」，SpatialActor通过解耦语义与几何，为具身智能注入强鲁棒空间基因

作者在包含 50 多个任务的多个仿真和真实世界场景中评估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成绩，达到 SOTA 水平；在不同噪声条件下，性能提升了 13.9% 至 19.4%，展现出强大的鲁棒性。目前该论文已被收录为 AAAI 2026 Oral，并将于近期开源。

来自主题: AI技术研报

7600 点击 2025-12-06 10:59

视频模型也能推理，Sora2推理能力超过GPT-5

DeepWisdom研究团队提出：视频生成模型不仅能画画，更能推理。为了验证这一观点，团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理（spatial reasoning）能力的基准测试

来自主题: AI技术研报

7895 点击 2025-12-06 10:57

北航领衔发布300页代码智能综述：从基础模型到智能体，一次读懂Code LLM全景图

这篇学术论长文由北京航空航天大学复杂关键软件环境全国重点实验室领衔。《From Code Foundation Models to Agents and Applications》一文是对过去几年代码智能领域的一次系统梳理：模型、任务、训练、智能体、安全与应用都被串联成了一条完整、连贯的技术链路。

来自主题: AI技术研报

8563 点击 2025-12-06 10:54