AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
分享一种 AI 业务建模方法:Agent Ontology,Agent 本体论

分享一种 AI 业务建模方法:Agent Ontology,Agent 本体论

分享一种 AI 业务建模方法:Agent Ontology,Agent 本体论

今天想和大家分享一种业务建模方法:Agent Ontology,Agent 本体论 Ontology 是我在研究 Palantir 时不断出现的一个词,仔细研究后觉得很有必要单独拿出来,和大家分享。 首先,Ontology 不是单纯的方法论,也不是单独一个工具。

来自主题: AI技术研报
9108 点击    2026-07-05 11:16
上海交大提出ICRDrag:首个上下文区域拖拽模型,实现精准可控图像编辑

上海交大提出ICRDrag:首个上下文区域拖拽模型,实现精准可控图像编辑

上海交大提出ICRDrag:首个上下文区域拖拽模型,实现精准可控图像编辑

还在用 DragGAN、DragDiffusion 拖拽修图?点选拖拽容易变形、边界割裂、细节丢失的时代落幕了!ECCV 2026 ICRDrag 首创上下文区域拖拽模型,用掩码精准定位局部区域,移动、缩放、变形全都丝滑自然,兼顾精准度与画面真实感。

来自主题: AI技术研报
7723 点击    2026-07-05 09:47
Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

近日,上海AI Lab等团队提出了一种面向专业软件智能体的新范式——ComAct(COM-as-Action)。它的核心思想在于:不再把鼠标点击和键盘输入作为Agent的action,而是让Agent直接生成COM代码,通过软件底层对象模型操纵真实专业软件。

来自主题: AI技术研报
8476 点击    2026-07-05 09:43
Router的作用被低估了?vLLM这个神器,让单次调用背后藏了一支模型协作小队

Router的作用被低估了?vLLM这个神器,让单次调用背后藏了一支模型协作小队

Router的作用被低估了?vLLM这个神器,让单次调用背后藏了一支模型协作小队

vLLM 社区推出的 Semantic Router 除了专注上面三个方向,正在更进一步:我们认为:router 不只是选择模型,还可以提升模型能力。用户不用改权重,也不用让每个 Agent 团队都自己搭一套 Graph,而是在一次普通 Model API 调用的内部,组织出一支有边界、有预算、有验证、有回退的 “小队”。

来自主题: AI技术研报
8363 点击    2026-07-05 09:43
ICML 2026|两张图换个顺序,VLM就「不会了」:EgoTSR让机器人判断任务是否真的在推进

ICML 2026|两张图换个顺序,VLM就「不会了」:EgoTSR让机器人判断任务是否真的在推进

ICML 2026|两张图换个顺序,VLM就「不会了」:EgoTSR让机器人判断任务是否真的在推进

浙江大学等五所高校的研究团队提出 EgoTSR。研究从第一人称机器人视角出发,希望让 VLM 学会判断任务状态,并把这种能力进一步扩展到长程规划。团队构建了包含 4600 万条样本的 EgoTSR-Data,并设计了三阶段课程学习流程。

来自主题: AI技术研报
7634 点击    2026-07-05 09:32
Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱

Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱

Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱

就在昨晚,Anthropic扔出了经济指数系列的第六份报告——第一次把几百万次Claude对话的采样精度从每周拉到逐小时!你几点焦虑、几点嘴馋、几点睡不着,全在数据里。AI比你的伴侣还懂你的作息。

来自主题: AI技术研报
8045 点击    2026-07-04 11:16
把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈

把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈

把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈

中国人民大学的研究团队提出 CoDA-Bench,联合评估 Agent 的 Code Intelligence + Data Intelligence。该基准首次把 Code Agent 放进包含 1000 + 数据文件的复杂环境下,要求模型先自主探索文件系统、找到相关数据,再编写代码完成分析。实验显示,即使当前表现最好的系统,在 CoDA-Bench 上执行准确率也只有 61.1%;

来自主题: AI技术研报
8997 点击    2026-07-04 10:51
ECCV 2026 | 悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

ECCV 2026 | 悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

ECCV 2026 | 悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

LinStereo 对应地做了三件事:PALA 换掉 ConvGRU 解决传播问题,HSCV 保留多尺度特征,DPI 用单目深度给一个靠谱的起点。PALA 做的事情说起来很直观,就是把 ConvGRU 的局部更新换成全局注意力,让每个像素每次迭代都能看到整张图。难点在于 softmax attention 是 O (N²) 的,直接用在高分辨率视差图上跑不动。

来自主题: AI技术研报
8144 点击    2026-07-04 10:50
AI Agent为什么总是不稳定?终于有了一个系统性基准来拆解

AI Agent为什么总是不稳定?终于有了一个系统性基准来拆解

AI Agent为什么总是不稳定?终于有了一个系统性基准来拆解

三星大模型团队联合北京大学、香港城市大学、香港科技大学等科研机构,共同发布了面向 AI Agent 的基准测试 LiveClawBench。它关注的并不是「谁的 Agent 更强」,而是一个更基础、也更关键的问题:为什么同一个 AI Agent,在一些任务中已经接近可用,而在另一些任务中却会突然失稳?

来自主题: AI技术研报
7180 点击    2026-07-04 10:50
只用15%数据,多模态指令微调反超全量训练15.8%!

只用15%数据,多模态指令微调反超全量训练15.8%!

只用15%数据,多模态指令微调反超全量训练15.8%!

来自上海交大、马来亚大学、CMU、MBZUAI、KIT和KAUST的团队提出VisNec(Visual Necessity Score,视觉必要性分数),用一个分数衡量每条训练样本里“图像到底起了多大作用”,被ECCV 2026收录。

来自主题: AI技术研报
7645 点击    2026-07-04 10:47
黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

华大智造子公司涌生智能×上海人工智能实验室,联合发布两项新成果:ProtoPilot:一款由真实实验室场景驱动的自进化多智能体系统;BioLab Bench:生命科学领域首个从用户需求到设备可执行的全流程Agent评测体系。

来自主题: AI技术研报
8345 点击    2026-07-03 16:12
刚刚,LeCun团队让世界模型学会持续学习!

刚刚,LeCun团队让世界模型学会持续学习!

刚刚,LeCun团队让世界模型学会持续学习!

刚刚,纽约大学联合LeCun初创AMI带来JEPA系列的最新成果——AdaJEPA。与过去在预训练结束后就冻结参数的世界模型不同,AdaJEPA能够在与环境交互中,基于测试时自适应(Test-Time Adaptation, TTA),实时调整世界模型的编码器和预测器参数,从而实现持续学习。

来自主题: AI技术研报
9190 点击    2026-07-03 16:12
李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱

李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱

李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱

还在聊Sim2Real?现在机器人圈更火的是Real2Sim!最近,英伟达GEAR联合李飞飞团队、佐治亚理工大学等机构联合发布全新Real2Sim系统——SimFoundry。SimFoundry只需一段真实世界视频,就能自动生成一个可以交互、训练、评测的机器人仿真环境。

来自主题: AI技术研报
8475 点击    2026-07-03 16:11
能帮你做 Live Photo 了!藏师傅社交卡片 Skill 重磅更新

能帮你做 Live Photo 了!藏师傅社交卡片 Skill 重磅更新

能帮你做 Live Photo 了!藏师傅社交卡片 Skill 重磅更新

前段时间我做了一个 guizang-social-card-skill(https://github.com/op7418/guizang-social-card-skill)。

来自主题: AI技术研报
8730 点击    2026-07-03 10:39
世界模型的新用途:不做选手,去当裁判

世界模型的新用途:不做选手,去当裁判

世界模型的新用途:不做选手,去当裁判

眼下具身赛道都在卷世界模型,都在抢着做机器人的“大脑”。

来自主题: AI技术研报
7931 点击    2026-07-03 10:10
怎么量化机器人数据价值?ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据

怎么量化机器人数据价值?ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据

怎么量化机器人数据价值?ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据

具身智能正在进入数据 scaling 时代。Vision-Language-Action(VLA)模型让机器人可以从大规模示教数据(demonstrations)中学习更通用的操作策略。但对机器人 VLA 训练来说,数据并不总是越多越好:低质量数据可能会拖累模型性能,而每一条 demonstration 都意味着昂贵的人力采集、机器人运行,以及云端存储和训练成本。

来自主题: AI技术研报
9144 点击    2026-07-03 09:48
3个爆火的开源项目,无需API Key的爬虫神器!

3个爆火的开源项目,无需API Key的爬虫神器!

3个爆火的开源项目,无需API Key的爬虫神器!

现在用 AI 做项目,经常会碰到这种尴尬的情况: 写代码,它喜欢乱造轮子,能用十行解决的事,非要写一大坨。

来自主题: AI技术研报
8614 点击    2026-07-03 09:47
一个开源平台,编织起了Agent「互联网」

一个开源平台,编织起了Agent「互联网」

一个开源平台,编织起了Agent「互联网」

在历史长河中,技术的发展很少是一路线性往前走的,很多关键变化发生在「连接」被打通的那一刻。

来自主题: AI技术研报
7803 点击    2026-07-02 15:00
Agent的自演进,被刚刚开源的AReaL 2.0按下了加速键

Agent的自演进,被刚刚开源的AReaL 2.0按下了加速键

Agent的自演进,被刚刚开源的AReaL 2.0按下了加速键

当 Agent 从演示视频中的炫技片段开始走进真实工作流与生产环境,下一阶段的「何去何从」成为业界关注的焦点。

来自主题: AI技术研报
6307 点击    2026-07-02 14:31
ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES:为强化学习合成更有价值的样本

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES:为强化学习合成更有价值的样本

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES:为强化学习合成更有价值的样本

近年来,强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而,在真实世界中,强化学习仍面临一个核心难题:高质量样本的获取不仅成本高昂,还可能带来多种风险。因此,样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。

来自主题: AI技术研报
9758 点击    2026-07-02 14:31
训练世界模型,开始从人类的肌肉和脑子里偷师了

训练世界模型,开始从人类的肌肉和脑子里偷师了

训练世界模型,开始从人类的肌肉和脑子里偷师了

具身智能数据的竞争,正在从“量大管饱”进入下一关。

来自主题: AI技术研报
5894 点击    2026-07-02 14:29
OceanBase湖库一体,重新定义AI数据库

OceanBase湖库一体,重新定义AI数据库

OceanBase湖库一体,重新定义AI数据库

AI时代苟日新,日日新,又日新,数据库也是如此。

来自主题: AI技术研报
7493 点击    2026-07-02 11:04
AI视觉创作总差点意思?中科大等综述500+篇文献,系统分析生成一致性

AI视觉创作总差点意思?中科大等综述500+篇文献,系统分析生成一致性

AI视觉创作总差点意思?中科大等综述500+篇文献,系统分析生成一致性

扩散模型已经越来越会「画」,却还远没有学会「守住要求」。决定系统是否可靠的,已不再只是画质,而是生成结果能否持续遵守条件、维持状态,并符合人类与现实世界的基本标准。

来自主题: AI技术研报
5526 点击    2026-07-02 11:04
从答题到做实验:SciAgentGym让大模型进入科学工作流

从答题到做实验:SciAgentGym让大模型进入科学工作流

从答题到做实验:SciAgentGym让大模型进入科学工作流

DeepMind 联合创始人、2024 年诺贝尔化学奖得主 Demis Hassabis 曾谈到,他一直将 AI 视为推动知识前沿的重要工具。AI 可以帮助科学家处理复杂数据、发现隐藏模式,也可能在未来参与更深层的科学探索。

来自主题: AI技术研报
5605 点击    2026-07-02 10:35
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

多租户 RAG 与Agent系统的生产实践中,最致命的事故莫过于数据串租,系统将租户 B 的私有数据作为背景知识,回答了租户 A 的提问。

来自主题: AI技术研报
6657 点击    2026-07-02 10:35
开源「仓颉.Skill」2.0,你现在可以蒸馏任何视频!

开源「仓颉.Skill」2.0,你现在可以蒸馏任何视频!

开源「仓颉.Skill」2.0,你现在可以蒸馏任何视频!

大家好,我是袋鼠帝。 没想到cangjie-skill在4月开源,中间没怎么推,两个月还慢慢涨到了1.3K Star,有点出乎我的意料。

来自主题: AI技术研报
9826 点击    2026-07-01 16:23