AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱

Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱

Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱

就在昨晚,Anthropic扔出了经济指数系列的第六份报告——第一次把几百万次Claude对话的采样精度从每周拉到逐小时!你几点焦虑、几点嘴馋、几点睡不着,全在数据里。AI比你的伴侣还懂你的作息。

来自主题: AI技术研报
7970 点击    2026-07-04 11:16
把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈

把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈

把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈

中国人民大学的研究团队提出 CoDA-Bench,联合评估 Agent 的 Code Intelligence + Data Intelligence。该基准首次把 Code Agent 放进包含 1000 + 数据文件的复杂环境下,要求模型先自主探索文件系统、找到相关数据,再编写代码完成分析。实验显示,即使当前表现最好的系统,在 CoDA-Bench 上执行准确率也只有 61.1%;

来自主题: AI技术研报
8887 点击    2026-07-04 10:51
ECCV 2026 | 悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

ECCV 2026 | 悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

ECCV 2026 | 悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

LinStereo 对应地做了三件事:PALA 换掉 ConvGRU 解决传播问题,HSCV 保留多尺度特征,DPI 用单目深度给一个靠谱的起点。PALA 做的事情说起来很直观,就是把 ConvGRU 的局部更新换成全局注意力,让每个像素每次迭代都能看到整张图。难点在于 softmax attention 是 O (N²) 的,直接用在高分辨率视差图上跑不动。

来自主题: AI技术研报
8101 点击    2026-07-04 10:50
AI Agent为什么总是不稳定?终于有了一个系统性基准来拆解

AI Agent为什么总是不稳定?终于有了一个系统性基准来拆解

AI Agent为什么总是不稳定?终于有了一个系统性基准来拆解

三星大模型团队联合北京大学、香港城市大学、香港科技大学等科研机构,共同发布了面向 AI Agent 的基准测试 LiveClawBench。它关注的并不是「谁的 Agent 更强」,而是一个更基础、也更关键的问题:为什么同一个 AI Agent,在一些任务中已经接近可用,而在另一些任务中却会突然失稳?

来自主题: AI技术研报
7096 点击    2026-07-04 10:50
只用15%数据,多模态指令微调反超全量训练15.8%!

只用15%数据,多模态指令微调反超全量训练15.8%!

只用15%数据,多模态指令微调反超全量训练15.8%!

来自上海交大、马来亚大学、CMU、MBZUAI、KIT和KAUST的团队提出VisNec(Visual Necessity Score,视觉必要性分数),用一个分数衡量每条训练样本里“图像到底起了多大作用”,被ECCV 2026收录。

来自主题: AI技术研报
7599 点击    2026-07-04 10:47
黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

华大智造子公司涌生智能×上海人工智能实验室,联合发布两项新成果:ProtoPilot:一款由真实实验室场景驱动的自进化多智能体系统;BioLab Bench:生命科学领域首个从用户需求到设备可执行的全流程Agent评测体系。

来自主题: AI技术研报
8303 点击    2026-07-03 16:12
刚刚,LeCun团队让世界模型学会持续学习!

刚刚,LeCun团队让世界模型学会持续学习!

刚刚,LeCun团队让世界模型学会持续学习!

刚刚,纽约大学联合LeCun初创AMI带来JEPA系列的最新成果——AdaJEPA。与过去在预训练结束后就冻结参数的世界模型不同,AdaJEPA能够在与环境交互中,基于测试时自适应(Test-Time Adaptation, TTA),实时调整世界模型的编码器和预测器参数,从而实现持续学习。

来自主题: AI技术研报
9162 点击    2026-07-03 16:12
李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱

李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱

李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱

还在聊Sim2Real?现在机器人圈更火的是Real2Sim!最近,英伟达GEAR联合李飞飞团队、佐治亚理工大学等机构联合发布全新Real2Sim系统——SimFoundry。SimFoundry只需一段真实世界视频,就能自动生成一个可以交互、训练、评测的机器人仿真环境。

来自主题: AI技术研报
8434 点击    2026-07-03 16:11
能帮你做 Live Photo 了!藏师傅社交卡片 Skill 重磅更新

能帮你做 Live Photo 了!藏师傅社交卡片 Skill 重磅更新

能帮你做 Live Photo 了!藏师傅社交卡片 Skill 重磅更新

前段时间我做了一个 guizang-social-card-skill(https://github.com/op7418/guizang-social-card-skill)。

来自主题: AI技术研报
8707 点击    2026-07-03 10:39
世界模型的新用途:不做选手,去当裁判

世界模型的新用途:不做选手,去当裁判

世界模型的新用途:不做选手,去当裁判

眼下具身赛道都在卷世界模型,都在抢着做机器人的“大脑”。

来自主题: AI技术研报
7894 点击    2026-07-03 10:10
怎么量化机器人数据价值?ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据

怎么量化机器人数据价值?ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据

怎么量化机器人数据价值?ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据

具身智能正在进入数据 scaling 时代。Vision-Language-Action(VLA)模型让机器人可以从大规模示教数据(demonstrations)中学习更通用的操作策略。但对机器人 VLA 训练来说,数据并不总是越多越好:低质量数据可能会拖累模型性能,而每一条 demonstration 都意味着昂贵的人力采集、机器人运行,以及云端存储和训练成本。

来自主题: AI技术研报
9125 点击    2026-07-03 09:48
3个爆火的开源项目,无需API Key的爬虫神器!

3个爆火的开源项目,无需API Key的爬虫神器!

3个爆火的开源项目,无需API Key的爬虫神器!

现在用 AI 做项目,经常会碰到这种尴尬的情况: 写代码,它喜欢乱造轮子,能用十行解决的事,非要写一大坨。

来自主题: AI技术研报
8591 点击    2026-07-03 09:47
一个开源平台,编织起了Agent「互联网」

一个开源平台,编织起了Agent「互联网」

一个开源平台,编织起了Agent「互联网」

在历史长河中,技术的发展很少是一路线性往前走的,很多关键变化发生在「连接」被打通的那一刻。

来自主题: AI技术研报
7781 点击    2026-07-02 15:00
Agent的自演进,被刚刚开源的AReaL 2.0按下了加速键

Agent的自演进,被刚刚开源的AReaL 2.0按下了加速键

Agent的自演进,被刚刚开源的AReaL 2.0按下了加速键

当 Agent 从演示视频中的炫技片段开始走进真实工作流与生产环境,下一阶段的「何去何从」成为业界关注的焦点。

来自主题: AI技术研报
6279 点击    2026-07-02 14:31
ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES:为强化学习合成更有价值的样本

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES:为强化学习合成更有价值的样本

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES:为强化学习合成更有价值的样本

近年来,强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而,在真实世界中,强化学习仍面临一个核心难题:高质量样本的获取不仅成本高昂,还可能带来多种风险。因此,样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。

来自主题: AI技术研报
9739 点击    2026-07-02 14:31
训练世界模型,开始从人类的肌肉和脑子里偷师了

训练世界模型,开始从人类的肌肉和脑子里偷师了

训练世界模型,开始从人类的肌肉和脑子里偷师了

具身智能数据的竞争,正在从“量大管饱”进入下一关。

来自主题: AI技术研报
5866 点击    2026-07-02 14:29
OceanBase湖库一体,重新定义AI数据库

OceanBase湖库一体,重新定义AI数据库

OceanBase湖库一体,重新定义AI数据库

AI时代苟日新,日日新,又日新,数据库也是如此。

来自主题: AI技术研报
7479 点击    2026-07-02 11:04
AI视觉创作总差点意思?中科大等综述500+篇文献,系统分析生成一致性

AI视觉创作总差点意思?中科大等综述500+篇文献,系统分析生成一致性

AI视觉创作总差点意思?中科大等综述500+篇文献,系统分析生成一致性

扩散模型已经越来越会「画」,却还远没有学会「守住要求」。决定系统是否可靠的,已不再只是画质,而是生成结果能否持续遵守条件、维持状态,并符合人类与现实世界的基本标准。

来自主题: AI技术研报
5514 点击    2026-07-02 11:04
从答题到做实验:SciAgentGym让大模型进入科学工作流

从答题到做实验:SciAgentGym让大模型进入科学工作流

从答题到做实验:SciAgentGym让大模型进入科学工作流

DeepMind 联合创始人、2024 年诺贝尔化学奖得主 Demis Hassabis 曾谈到,他一直将 AI 视为推动知识前沿的重要工具。AI 可以帮助科学家处理复杂数据、发现隐藏模式,也可能在未来参与更深层的科学探索。

来自主题: AI技术研报
5577 点击    2026-07-02 10:35
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

多租户 RAG 与Agent系统的生产实践中,最致命的事故莫过于数据串租,系统将租户 B 的私有数据作为背景知识,回答了租户 A 的提问。

来自主题: AI技术研报
6640 点击    2026-07-02 10:35
开源「仓颉.Skill」2.0,你现在可以蒸馏任何视频!

开源「仓颉.Skill」2.0,你现在可以蒸馏任何视频!

开源「仓颉.Skill」2.0,你现在可以蒸馏任何视频!

大家好,我是袋鼠帝。 没想到cangjie-skill在4月开源,中间没怎么推,两个月还慢慢涨到了1.3K Star,有点出乎我的意料。

来自主题: AI技术研报
9799 点击    2026-07-01 16:23
邢波再出手:上次「骂」完世界模型,这次轮到智能体了

邢波再出手:上次「骂」完世界模型,这次轮到智能体了

邢波再出手:上次「骂」完世界模型,这次轮到智能体了

去年夏天,MBZUAI 校长、CMU 教授邢波一篇《世界模型批评》吸引了研究社区广泛关注,他从科幻经典《沙丘》里「完美模拟现实」的想象出发,逐一拆解了当下几大世界模型流派的硬伤,提出了一套新架构,也由此引出了他与 Yann LeCun 之间一场关于「世界模型到底该怎么造」的公开辩论。

来自主题: AI技术研报
6816 点击    2026-07-01 15:43
都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

当所有人都在比谁「想得更久、算得更多」——推理模型动辄输出成千上万个思考 token,循环式架构恨不得在内部反复迭代十遍八遍——一项新研究反手泼了盆冷水:

来自主题: AI技术研报
6615 点击    2026-07-01 10:26
清华发布智能体社会AgentSociety第二代:让社会科学研究真正「跑起来」

清华发布智能体社会AgentSociety第二代:让社会科学研究真正「跑起来」

清华发布智能体社会AgentSociety第二代:让社会科学研究真正「跑起来」

AgentSociety²是清华大学团队推出的社会科学研究新工具,通过AI智能体模拟社会行为,帮助研究者构建实验环境,直接运行社会假设。它让AI同时扮演研究助手和实验参与者角色,使复杂社会问题能被构造、运行和分析,提升研究效率与可复现性。

来自主题: AI技术研报
6403 点击    2026-07-01 09:52