AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
NEWTON:从「等物理涌现」到「请牛顿进工具箱」,Agent 驱动的视频生成新范式

NEWTON:从「等物理涌现」到「请牛顿进工具箱」,Agent 驱动的视频生成新范式

NEWTON:从「等物理涌现」到「请牛顿进工具箱」,Agent 驱动的视频生成新范式

近年来,视频生成模型发展迅猛。从 Sora、Veo、Kling 到一系列开源视频生成模型,文生视频已经逼近真实影像的观感 —— 画面清晰、镜头流畅、风格可控,一句话就能生成一段观感不错的视频。

来自主题: AI技术研报
9020 点击    2026-06-12 10:13
Agent 带来Episodic Workload后,传统开源数据库已经远不够用了

Agent 带来Episodic Workload后,传统开源数据库已经远不够用了

Agent 带来Episodic Workload后,传统开源数据库已经远不够用了

如果把一个商业化产品、一个科技公司的底层系统比作一棵树,那任意挑出一个项目,层层抽丝剥茧之后,你一定会发现,最早的年轮,一定与开源有关。

来自主题: AI技术研报
6529 点击    2026-06-12 10:13
Anthropic宣告「递归自我提升」时代到来,LLM如何实现自我进化?全景综述带你一探究竟

Anthropic宣告「递归自我提升」时代到来,LLM如何实现自我进化?全景综述带你一探究竟

Anthropic宣告「递归自我提升」时代到来,LLM如何实现自我进化?全景综述带你一探究竟

近日,Anthropic 发布了一篇引发广泛关注的文章《When AI builds itself》。文中披露了极其惊人的内部数据:截至 2026 年 5 月,Anthropic 超过 80% 的合并代码已由 Claude 编写,工程师的日常代码产出飙升了 8 倍;更令人瞩目的是,AI 智能体已经可以自主提出假设、执行长达数百小时的强化安全实验。

来自主题: AI技术研报
9743 点击    2026-06-12 10:13
通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

想象这样一个惬意的周末: 空调带来阵阵凉意,你靠在沙发上看书,突然耳边传来“哒哒哒”的小碎步声,接着,玄关门边传来了一阵清脆、略带急切的“呜呜”声,还伴随着爪尖轻轻扒拉木门的声响。

来自主题: AI技术研报
5563 点击    2026-06-12 10:02
斩获15个顶级零日漏洞:0G Lab联合新国立,北大和北邮团队构建的共识协议debug智能体框架

斩获15个顶级零日漏洞:0G Lab联合新国立,北大和北邮团队构建的共识协议debug智能体框架

斩获15个顶级零日漏洞:0G Lab联合新国立,北大和北邮团队构建的共识协议debug智能体框架

分布式系统的 “圣杯”—— 共识协议(Consensus Protocols),长久以来都是顶级基础设施工程师的 “Bug 地狱”。由于其状态极其复杂、多节点交织,传统测试和单体 LLM 对硬核的 Deep Bug(深层逻辑漏洞)几乎束手无策。

来自主题: AI技术研报
7547 点击    2026-06-11 14:59
ACL 2026 Oral|语义推理如鲠在喉:大模型被「短语」难住了

ACL 2026 Oral|语义推理如鲠在喉:大模型被「短语」难住了

ACL 2026 Oral|语义推理如鲠在喉:大模型被「短语」难住了

AI 的能力边界正在不断被刷新。从数学推理到代码生成,再到数字化白领,语言模型和语言智能体在诸多基准测试中已展现出超越人类专家的表现。一个看似顺理成章的判断早已成为共识:语言模型已经具备了扎实的语言理解和语义推理能力。然而,ACL 2026 Oral 的一项研究工作从一个更基础的层面重新审视了这个问题:语言模型真的理解(短语)语义吗?

来自主题: AI技术研报
8329 点击    2026-06-11 14:32
一篇综述看懂 agent context compression:怎么压、压什么、谁来压

一篇综述看懂 agent context compression:怎么压、压什么、谁来压

一篇综述看懂 agent context compression:怎么压、压什么、谁来压

LLM Agent 做长任务时,真正让人头疼的往往不是模型不会推理,而是上下文开始失控:前几步还很清楚,后面就忘约束、丢状态、重复试错,最后把任务跑成事故现场。

来自主题: AI技术研报
6394 点击    2026-06-11 14:32
MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

随着视频生成技术的发展,模型正在从短视频片段合成,向流式长视频生成演进。然而,仅仅做到视觉上的逼真是不够的。一个功能完备的视频世界模型,必须能够在长时序交互中保持稳定的内部状态,并遵循真实世界的物理定律与逻辑规则。

来自主题: AI技术研报
6656 点击    2026-06-11 14:30
谷歌Gemma4-12B怎么用最好?16G显存轻薄本也能跑起本地多模态SubAgent

谷歌Gemma4-12B怎么用最好?16G显存轻薄本也能跑起本地多模态SubAgent

谷歌Gemma4-12B怎么用最好?16G显存轻薄本也能跑起本地多模态SubAgent

过去一年,开源模型的发布节奏已经快到让人麻木。每次发布,伴随的永远是一组跑分、一张能力雷达图,以及几个“超越某某”的结论。

来自主题: AI技术研报
7815 点击    2026-06-11 10:18
AI交互新基准!蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

AI交互新基准!蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

AI交互新基准!蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

想象一下,你问 AI 要一个饮食记录工具,它不再是回你一段文字建议,而是直接给你一个可以点击添加、统计热量的完整应用。人和 AI 的交互,正在从「读文字」走向「用应用」。

来自主题: AI技术研报
8810 点击    2026-06-11 10:17
SwarmFlow来了!openJiuwen开创蜂群可控协同新范式

SwarmFlow来了!openJiuwen开创蜂群可控协同新范式

SwarmFlow来了!openJiuwen开创蜂群可控协同新范式

AI Agent 正在从 "单兵作战" 走向 "团队协作"—— 让多个 Agent 分工配合,去完成单个 Agent 难以独立扛下来的复杂任务,也是近期最受关注的方向之一。

来自主题: AI技术研报
9752 点击    2026-06-10 15:16
Claude 最强模型 Fable 5 全解析:Mythos 级别的怪物

Claude 最强模型 Fable 5 全解析:Mythos 级别的怪物

Claude 最强模型 Fable 5 全解析:Mythos 级别的怪物

今天凌晨,Anthropic 发布新模型 Fable 5,毫无疑问的,也是当下的最强模型

来自主题: AI技术研报
9962 点击    2026-06-10 15:16
扩散模型里的噪声,原来还有这样的作用:DRDD重新定义统一图像翻译

扩散模型里的噪声,原来还有这样的作用:DRDD重新定义统一图像翻译

扩散模型里的噪声,原来还有这样的作用:DRDD重新定义统一图像翻译

在图像到图像翻译(Image-to-Image Translation, I2I)这个任务上,扩散模型过去几年几乎形成了一套默认逻辑:先把输入图像和噪声混合,再一步步去噪,把目标图像 “还原” 出来。

来自主题: AI技术研报
9401 点击    2026-06-10 15:15
OneReason:当推荐系统学会思考

OneReason:当推荐系统学会思考

OneReason:当推荐系统学会思考

推荐系统的过去十年,本质是把 "用户 - 物料" 的统计共现挖到极致 —— 从协同过滤、深度模型,到生成式 OneRec 系列,每一代都在让 "记忆" 更精细、参数更大、序列更长,也让 Scaling 这件事在工业级推荐系统上跑通,持续释放算力红利。

来自主题: AI技术研报
6226 点击    2026-06-10 14:43
当线性注意力学会「写入前思考」:并行化的多步记忆写入

当线性注意力学会「写入前思考」:并行化的多步记忆写入

当线性注意力学会「写入前思考」:并行化的多步记忆写入

Transformer 依托强大的建模能力和 Scaling 效率在推荐领域被广泛应用于超长序列建模和生成式推荐等方向,

来自主题: AI技术研报
5920 点击    2026-06-10 14:43
RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是,今天的大多数 VLA 更像 “展台机器人”。

来自主题: AI技术研报
6059 点击    2026-06-10 14:40
Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta、斯坦福深度解读

Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta、斯坦福深度解读

Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta、斯坦福深度解读

过去两年,大模型写代码已经不再新鲜。从代码补全到 GitHub issue 修复,从竞赛编程到仓库级软件工程,人们习惯用一个简单标准评估 coding agent:代码能不能写对?测试能不能通过?

来自主题: AI技术研报
8106 点击    2026-06-10 10:02
新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了

新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了

新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了

一个约 1B 参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元,16 块 H100 跑了不到两天。

来自主题: AI技术研报
7433 点击    2026-06-09 14:57
Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

当前,Coding Agents 在软件工程领域一路高歌猛进,科学家们看到此场景,也不禁寄予厚望:AI 智能体何时能以同样的速度,帮人类攻克药物设计、病毒监控与生物学建模的重重难关?

来自主题: AI技术研报
9573 点击    2026-06-09 14:53
280美元一单!1000名工程师教Claude写好代码

280美元一单!1000名工程师教Claude写好代码

280美元一单!1000名工程师教Claude写好代码

Anthropic自家工程师早已基本不写代码了,却280美元一个任务,花钱请约1000名外部工程师,手把手教Claude Code写出好代码。喂养前沿模型的,终究还是人。

来自主题: AI技术研报
6586 点击    2026-06-09 14:33
Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta 发布了一项令人震撼的研究工作 VLM³,首次揭示了三维视觉学习的 Bitter Lesson:标准的视觉语言模型 + scale 数据就是最简单有效的范式,针对特定任务的架构、损失函数以及数据增强的设计,甚至是 regression 的 formulation,均不是三维视觉学习的必要条件。

来自主题: AI技术研报
6197 点击    2026-06-09 14:31
我以为宠物翻译器是纯扯淡,直到我翻了几篇论文

我以为宠物翻译器是纯扯淡,直到我翻了几篇论文

我以为宠物翻译器是纯扯淡,直到我翻了几篇论文

第一次看到杭州某家公司的宠物翻译器报道时,我的反应很直接:这不就是新一代智商税吗?

来自主题: AI技术研报
8268 点击    2026-06-09 14:30
ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象

ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象

ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象

在交互式虚拟世界和具身智能快速发展的今天,高质量 3D 资产已经不再只是 “看起来像” 就足够。一个柜门不仅要有柜门的外观,还需要知道绕哪条轴旋转;一个按钮不仅要有按钮的形状,还需要具备 “按下 / 弹起” 的状态;一个抽屉不仅要有完整几何,还需要拥有滑动方向、运动范围、材质和质量等物理属性。该研究已被 ICML 2026 接收。

来自主题: AI技术研报
6756 点击    2026-06-09 14:08