AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

长期以来,计算机视觉领域陷入了一个 “表征(Representation)” 的执念。我们习惯设计各种精巧的 Encoder,试图将动态世界压缩成一组特征向量。然而,视频作为现实的高维投影,其熵值之高、动态之复杂,让这种试图 “定格” 的表征显得力不从心。

来自主题: AI技术研报
5515 点击    2026-03-05 09:08
训练机器人方式对了吗?英伟达DreamZero双榜第一新反思

训练机器人方式对了吗?英伟达DreamZero双榜第一新反思

训练机器人方式对了吗?英伟达DreamZero双榜第一新反思

近日,NVIDIA 发布的世界 - 动作模型 DreamZero,在两项颇具代表性的机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶。

来自主题: AI技术研报
8884 点击    2026-03-04 14:32
为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

一句话总结:社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了:在 BF16 等低精度训练里,FlashAttention 不是随机出 bug,而是会在特定条件下触发有方向的数值偏置,借助注意力中涌现的相似低秩更新方向被持续放大,最终把权重谱范数和激活推到失控,导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改,实测能显著稳定训练。

来自主题: AI技术研报
5669 点击    2026-03-04 13:49
补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」

2026 开年已两个月,Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw(原 Clawbot)掀起的那波 Agent 热潮至今仍在发酵,甚至让「一人公司」概念第一次真正有了落地的可能性。

来自主题: AI技术研报
9352 点击    2026-03-04 13:46
李曼玲、李飞飞、吴佳俊等联手:评估具身大模型的新范式!

李曼玲、李飞飞、吴佳俊等联手:评估具身大模型的新范式!

李曼玲、李飞飞、吴佳俊等联手:评估具身大模型的新范式!

全新的具身模型空间能力评估范式 Theory of Space 突破了传统静态图文问答的局限,系统性地考察基础模型能否像人一样,在部分可观测的动态环境中,通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。

来自主题: AI技术研报
9888 点击    2026-03-04 13:46
不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报
6848 点击    2026-03-04 13:44
推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析

强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。

来自主题: AI技术研报
8728 点击    2026-03-04 11:23
数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

没有图片,也能预训练多模态大模型?在多模态大模型(MLLM)的研发中,行业内长期遵循着一个昂贵的共识:没有图文对(Image-Text Pairs),就没有多模态能力。

来自主题: AI技术研报
7729 点击    2026-03-03 14:25
ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化

ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化

ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

来自主题: AI技术研报
7220 点击    2026-03-03 14:20
告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

告别纯奖励试错!二次尝试+反思蒸馏,复杂任务提升81%

强化学习已经成为大模型后训练阶段的核心方法之一,但一个长期存在的难题始终没有真正解决:现实环境中的反馈往往稀疏且延迟,模型很难从简单的奖励信号中推断出应该如何调整行为。

来自主题: AI技术研报
8042 点击    2026-03-03 14:17
Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

为了松绑参数与计算量,MoE 曾被寄予厚望 。它靠着稀疏激活的专家子网络,在一定程度上实现了模型容量与计算量的解耦 。然而,近期的研究表明,这并非没有代价的免费午餐 :稀疏模型通常具有更低的样本效率 ;随着稀疏度增大,路由负载均衡变得更加困难 ,且巨大的显存开销和通信压力导致其推理吞吐量往往远低于同等激活参数量的 dense 模型 。

来自主题: AI技术研报
7756 点击    2026-03-03 14:15
想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

MMLab@NTU联合中山大学的最新研究,给出了一份从入门到精通的终极“菜谱”——VLANeXt。这项研究没有简单提出一个新模型了事,而是系统性地从12个关键维度,深度剖析了VLA的设计空间。从基础组件到感知要素,再到动作建模的额外视角,每一步都有扎实的实验支撑。

来自主题: AI技术研报
7688 点击    2026-03-03 10:44
ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。

来自主题: AI技术研报
7806 点击    2026-03-02 14:31
OpenClaw 霸榜,Agent 全面爆发的前夜(附报告原文PDF)

OpenClaw 霸榜,Agent 全面爆发的前夜(附报告原文PDF)

OpenClaw 霸榜,Agent 全面爆发的前夜(附报告原文PDF)

AI 行业,似乎已经提前进入了以个人 Agent 为代表的「后 ChatGPT 时代」。这印证了独立 AI 基准测试机构「Artificial Analysis」的预测结论:2026,Agent 正在全面爆发。近期,他们发布了对 AI 领域发展的全面总结:《2025 年终 AI 发展报告》。

来自主题: AI技术研报
8101 点击    2026-03-02 10:14
GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

近日, Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文,并得到了一些相当惊人的新发现。在这项研究中,他们挑战了当前大模型安全领域的一个核心假设。长期以来,业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法:

来自主题: AI技术研报
8528 点击    2026-03-02 10:12
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

中国人民大学团队在论文DLLM-Searcher中,第一次让扩散大语言模型(dLLM)学会了这种“一心二用”的本事。目前主流的搜索Agent,不管是Search-R1还是R1Searcher,用的都是ReAct框架。这个框架的执行流程是严格串行的:

来自主题: AI技术研报
7355 点击    2026-03-02 10:00
支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!

支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!

支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!

我们开源的 Open Cowork,正是一次面向 “桌面端虚拟同事” 的实践:一键安装、无需写代码,让模型在安全沙箱里操作你的工作空间,既能产出 PPT/Word/Excel/PDF 等专业成果,也能通过 GUI 直接操作电脑完成更复杂更通用的跨应用流程。

来自主题: AI技术研报
7908 点击    2026-03-02 10:00
西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26

西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26

西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26

现有Rectified Flow(RF)模型在反演阶段面临的核心挑战,是逆向ODE对微小误差高度敏感,容易沿着数值不稳定方向偏离前向流形,导致轨迹发散、重建不一致、编辑不可控。为解决这一问题,团队提出PMI(Prox-Mean-Inversion),一种针对RF反演稳定性的轻量化修正机制。

来自主题: AI技术研报
8036 点击    2026-03-02 09:59
GRASP Lab | VPP-TC: 基于可行性理论的被动力矩安全控制框架

GRASP Lab | VPP-TC: 基于可行性理论的被动力矩安全控制框架

GRASP Lab | VPP-TC: 基于可行性理论的被动力矩安全控制框架

本篇文章被 ICRA 2026 接收并获得 IROS 2025 双料 Workshop 最佳论文,第一作者张子哲(site: zizhe.io)是宾夕法尼亚大学机器人学硕士生,同时在 GRASP 实验室担任科研助理,导师为 Nadia Figueroa 教授,研究兴趣涵盖机器学习,安全控制以及人机交互。

来自主题: AI技术研报
8742 点击    2026-03-01 11:18
第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。

来自主题: AI技术研报
8201 点击    2026-02-28 15:26
ICLR 2026 | 把视频扩散模型压到4bit,还能接近满血效果? QVGen让「超低比特视频生成量化」真正可用

ICLR 2026 | 把视频扩散模型压到4bit,还能接近满血效果? QVGen让「超低比特视频生成量化」真正可用

ICLR 2026 | 把视频扩散模型压到4bit,还能接近满血效果? QVGen让「超低比特视频生成量化」真正可用

香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把质量拉回来,并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。

来自主题: AI技术研报
7760 点击    2026-02-28 15:12
ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒

ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒

ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒

基于对注意力特性的观察,CineTrans 提出块对角掩码的通用机制,使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性,作者设计了详细的多镜头视频生产管线,并收集了一个高质量、多镜头数据集 Cine250K,大幅提升多镜头转场视频生成的效果。作为首个时间级可控的自动化转场模型,CineTrans 为这一领域的众多后续方法提供了关键技术。

来自主题: AI技术研报
8240 点击    2026-02-28 15:05
何恺明团队新作GeoPT,全新预训练范式用合成动力学让模型自学真实物理规律

何恺明团队新作GeoPT,全新预训练范式用合成动力学让模型自学真实物理规律

何恺明团队新作GeoPT,全新预训练范式用合成动力学让模型自学真实物理规律

GeoPT提出了一种全新的动力学提升预训练范式,通过合成动力学(Synthetic Dynamics)将静态几何“提升”到动态空间,让模型在无标签数据上通过学习粒子轨迹演化来获取物理直觉。

来自主题: AI技术研报
8406 点击    2026-02-28 14:58
Claude Code“隐形技术栈”被扒出来了!2430次测试揭秘工具偏好清单

Claude Code“隐形技术栈”被扒出来了!2430次测试揭秘工具偏好清单

Claude Code“隐形技术栈”被扒出来了!2430次测试揭秘工具偏好清单

最近,专注于量化AI主观决策的基准测试工作室Amplifying.ai,针对Claude Code的工具选择倾向开展了一项系统性研究。研究覆盖3款模型、4种项目类型及20个工具类别,累计分析了2430次工具选择行为。

来自主题: AI技术研报
8358 点击    2026-02-27 17:04
DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

「DeepSeek V4 来了!」这样的消息是不是已经听烦了?总结来说,这篇新论文介绍了一个名为「DualPath」的创新推理系统,专门针对智能体工作负载下的大语言模型(LLM)推理性能进行优化。具体来讲,通过引入「双路径 KV-Cache 加载」机制,解决了在预填充 - 解码(PD)分离架构下,KV-Cache 读取负载不平衡的问题。

来自主题: AI技术研报
8066 点击    2026-02-27 11:35