AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?

来自主题: AI技术研报
8993 点击    2026-05-20 15:16
ICML 2026|表格异常检测能否告别「one-for-one」?OFA-TAD迈向one-for-all通用异常检测新范式

ICML 2026|表格异常检测能否告别「one-for-one」?OFA-TAD迈向one-for-all通用异常检测新范式

ICML 2026|表格异常检测能否告别「one-for-one」?OFA-TAD迈向one-for-all通用异常检测新范式

表格异常检测(Tabular Anomaly Detection,TAD)旨在从结构化数据中精准识别显著偏离正常分布的稀有样本,其在医疗诊断、金融风控及网络安全等关键领域的数据挖掘与安全保障任务中发挥着核心作用。

来自主题: AI技术研报
7991 点击    2026-05-20 15:13
RAG效果不理想,怎么优化?Recall太低,是Milvus的问题吗?

RAG效果不理想,怎么优化?Recall太低,是Milvus的问题吗?

RAG效果不理想,怎么优化?Recall太低,是Milvus的问题吗?

RAG 系统上线后答案出错,绝大多数团队的第一反应都是换更贵的模型、反复调试 prompt。

来自主题: AI技术研报
5100 点击    2026-05-20 15:13
QoderWork Design 上线,设计即代码,不输 Claude Design

QoderWork Design 上线,设计即代码,不输 Claude Design

QoderWork Design 上线,设计即代码,不输 Claude Design

阿里的 QoderWork 最新上线了一个设计工作台(Design Desk),定位是用自然语言做出可交付的专业设计,从想法到工程级产物,中间不需要 Figma。

来自主题: AI技术研报
5891 点击    2026-05-20 10:35
20刀月费秒变API!Hermes一行命令就能用上Claude、ChatGPT订阅

20刀月费秒变API!Hermes一行命令就能用上Claude、ChatGPT订阅

20刀月费秒变API!Hermes一行命令就能用上Claude、ChatGPT订阅

游戏规则要被改写了!Hermes Agent一键把模型订阅变成标准API,零成本驱动全套工具链。Grok同步杀入Agent生态。

来自主题: AI技术研报
5531 点击    2026-05-20 10:34
DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈

DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈

DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈

近日,谷歌 DeepMind 研究员 Lun Wang@lunwang1996,在 x 上发文宣布自己已经从 DeepMind 离职,结束了这段非常精彩的旅程,「我非常感谢曾经共事的人、我们一起打造的东西,以及我在将前沿 AI 研究推向生产环境过程中学到的经验。」

来自主题: AI技术研报
7124 点击    2026-05-20 10:11
Anthropic 更新:Managed Agent 开放自托管

Anthropic 更新:Managed Agent 开放自托管

Anthropic 更新:Managed Agent 开放自托管

刚刚 Anthropic 又给他们的官方 Managed Agents 加了俩功能:自托管沙箱 self-hosted sandboxes 和 MCP 隧道 MCP tunnels

来自主题: AI技术研报
8778 点击    2026-05-20 10:11
HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

现有的开源多模态搜索智能体普遍受困于「裁剪 - 再搜索」的串行处理模式,面对多目标时往往陷入交互冗长、错误级联累积的泥沼。

来自主题: AI技术研报
5531 点击    2026-05-20 09:52
跨越落地鸿沟!清华长三院发布首个真实场景AI竞技场,实战谁是最佳?

跨越落地鸿沟!清华长三院发布首个真实场景AI竞技场,实战谁是最佳?

跨越落地鸿沟!清华长三院发布首个真实场景AI竞技场,实战谁是最佳?

攻克AI落地难题,清华团队推出RWAI框架与真实场景竞技场,通过标准化人机交互、任务集机制与人类反馈体系,显著提升产业应用效率。平台已实现落地周期缩短70%以上,并为AI开发者和企业提供了可复制的最佳实践。

来自主题: AI技术研报
6347 点击    2026-05-20 09:52
高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

大模型的能力边界正在不断拓展,从文字到视觉,再到音频,全模态理解已渐成现实。然而,当你问一个多模态大模型「这首歌的高潮从第几秒开始?」或者「第 30 秒之后乐器编配发生了什么变化?」,得到的往往是一个模糊甚至错误的回答。

来自主题: AI技术研报
6082 点击    2026-05-20 09:51
LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4

LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4

LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4

过去一段时间,很多人对大模型都有一个明显感受:token 总是不够用。

来自主题: AI技术研报
6942 点击    2026-05-19 15:32
伯克利神作背刺OpenAI:持续学习才是真神!

伯克利神作背刺OpenAI:持续学习才是真神!

伯克利神作背刺OpenAI:持续学习才是真神!

伯克利等发布FST框架:通过快慢分层解决大模型持续学习死局。

来自主题: AI技术研报
7949 点击    2026-05-19 15:31
你的AI Agent越用越蠢?港中大、浙大戳破「记忆」的谎言

你的AI Agent越用越蠢?港中大、浙大戳破「记忆」的谎言

你的AI Agent越用越蠢?港中大、浙大戳破「记忆」的谎言

你是否在使用Agent工作或者写代码时,总感觉上下文不够用?或者感觉反复使用Agent时并没有变得更聪明?感觉目前的记忆方案仍然不够用?今日,香港中文大学联合浙江大学发布的一篇论文关注了这个问题,并引起了学术界广泛讨论:你以为Agent在「记忆」,其实只是在记备忘录。

来自主题: AI技术研报
8357 点击    2026-05-19 15:00
Agent Harness Engineering:Agent的底盘工程综述|CMU、耶鲁、Amazon

Agent Harness Engineering:Agent的底盘工程综述|CMU、耶鲁、Amazon

Agent Harness Engineering:Agent的底盘工程综述|CMU、耶鲁、Amazon

经常切换使用CC、Codex、OpenClaw这类Agent的人会发现:同一个模型,放进不同系统里,表现可能完全不同。

来自主题: AI技术研报
6097 点击    2026-05-19 14:58
ICML 2026 | 突破3DGS光度多义性瓶颈:北航/新国立提出AmbiSuR,重塑高保真3D几何重建

ICML 2026 | 突破3DGS光度多义性瓶颈:北航/新国立提出AmbiSuR,重塑高保真3D几何重建

ICML 2026 | 突破3DGS光度多义性瓶颈:北航/新国立提出AmbiSuR,重塑高保真3D几何重建

近年来,3D 高斯泼溅(3D Gaussian Splatting, 3DGS)凭借其卓越的新视角合成能力和实时的渲染效率,极大地推动了神经渲染技术的发展。然而,当研究者试图直接从 3DGS 中提取精确的 3D 几何表面(Mesh 等)时,往往会面临严重的几何失真问题。

来自主题: AI技术研报
6983 点击    2026-05-19 14:57
谷歌搜不到的80%互联网,AnySearch全打通了!开发者连夜接入

谷歌搜不到的80%互联网,AnySearch全打通了!开发者连夜接入

谷歌搜不到的80%互联网,AnySearch全打通了!开发者连夜接入

传统API集成已死!在这个Agent满地跑的时代,被低估的搜索终于迎来了第四次范式转移。AnySearch的问世,让Agent告别了单一的网页总结功能,转而通过获取可信的结构化信息,真正具备触达并连接现实世界的能力。

来自主题: AI技术研报
5390 点击    2026-05-19 10:59
字节会师何恺明!开源连续扩散语言模型Cola DLM

字节会师何恺明!开源连续扩散语言模型Cola DLM

字节会师何恺明!开源连续扩散语言模型Cola DLM

大语言模型真的只能走“预测下一个token”的路子吗?

来自主题: AI技术研报
9898 点击    2026-05-19 10:31
红杉 xbench:AI 去药企做实习,遥遥领先了人类

红杉 xbench:AI 去药企做实习,遥遥领先了人类

红杉 xbench:AI 去药企做实习,遥遥领先了人类

xbench,就是红杉自己弄的那个中立评测lab,刚刚又整了个新活:让 AI 做药企的数据分析,跟人类实习生比个高低,然后遥遥领先的赢了

来自主题: AI技术研报
5992 点击    2026-05-19 10:30
ICML 2026|告别「单线程」思维,智能体进化出了原生的并行推理大脑

ICML 2026|告别「单线程」思维,智能体进化出了原生的并行推理大脑

ICML 2026|告别「单线程」思维,智能体进化出了原生的并行推理大脑

近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-of-Thought)往往就开始「吃力」:容易被早期判断带偏、发散不足、自我纠错弱,而且顺序生成的效率天然受限。

来自主题: AI技术研报
8954 点击    2026-05-19 10:01
ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。

来自主题: AI技术研报
6558 点击    2026-05-19 10:01
花了1000倍的token,效果可能却没有更好:AI Agent的“隐性账单”长什么样

花了1000倍的token,效果可能却没有更好:AI Agent的“隐性账单”长什么样

花了1000倍的token,效果可能却没有更好:AI Agent的“隐性账单”长什么样

如今的 AI Agent 正在大规模落地,其中应用最广且最受关注的当数 Claude Code,Codex,Cursor 这类 coding agent。过去的一年里,这类 coding agent 产品迭代迅速,在一年内将在 swe-bench- verified 的准确率提高到了 78%+。

来自主题: AI技术研报
6514 点击    2026-05-19 10:00
24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷

24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷

24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷

Mechanize 发布了一项硬核测试:给前沿 AI coding agents 24 小时,用 Rust 从零写一个完整的 Game Boy Advance 模拟器,再和顶级开源模拟器 Mesen2 逐帧对比打分。

来自主题: AI技术研报
7681 点击    2026-05-18 16:48
「世界模型」究竟是什么?一文看懂其前世今生与百亿赌局

「世界模型」究竟是什么?一文看懂其前世今生与百亿赌局

「世界模型」究竟是什么?一文看懂其前世今生与百亿赌局

世界模型(World Model),想必你已经在很多场合听过这个术语了。它有时出现在视频生成领域,有时又出现在具身智能领域;它们的含义还有所差别,甚至看起来像是完全不同的概念。

来自主题: AI技术研报
6164 点击    2026-05-18 16:48