AI技术研报-这里有最前沿的人工智能技术解读

近期必读！Devin VS Anthropic 的多智能体构建方法论

昨天最热的的两篇文章是关于多智能体系统构建的讨论。先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验，具体：包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方面。

来自主题: AI技术研报

8919 点击 2025-06-16 10:17

98%医生点赞的AI队友，斯坦福实验揭秘：诊断准确率飙升10%！

AI从医疗工具变身为协作队友，斯坦福大学研究揭示：医生诊断准确率竟飙升10%！70名美国执业医生参与的真实测试，AI-first、AI-second与传统诊断，谁能更精准破解临床谜题？

来自主题: AI技术研报

5791 点击 2025-06-16 10:11

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈

AI两天爆肝12年研究，精准吊打人类！多大、哈佛MIT等17家机构联手放大招，基于GPT-4.1和o3-mini，筛选文献提取数据，效率飙3000倍重塑AI科研工作流。

来自主题: AI技术研报

7797 点击 2025-06-16 09:55

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」，精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策，但由于模型缺乏透明性，其决策过程往往难以被理解与验证，尤其在关键场景中，错误决策可能带来严重后果。因此，提升模型的可解释性成为迫切需求。

来自主题: AI技术研报

5824 点击 2025-06-16 09:27

机器人也能边想边做！清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通

只用一个模型，就能边思考边动手，涮火锅、调鸡尾酒，还能听你指挥、自己纠错 —— 未来通用机器人的关键一跃，或许已经到来。

来自主题: AI技术研报

4897 点击 2025-06-16 09:24

囤的提示词每次都要找半天，怒肝10小时做出个插件解决！

作为一个专注用AI解决具体场景问题的自媒体小博主，每一个场景我一般都搓一个提示词出来，随着覆盖的场景越来越多，我的提示词库也变得越来越庞大。

来自主题: AI技术研报

6506 点击 2025-06-16 09:16

破解三大数据库AI难题！北大＆亚马逊推出全球首个图中心RDB基础模型

在企业系统和科学研究中普遍存在、结构复杂的关系型数据库（Relational DataBase, RDB）场景中，基础模型的探索仍处于早期阶段。

来自主题: AI技术研报

8914 点击 2025-06-15 15:54

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

真正的智能在于理解任务的模糊与复杂，Context Scaling 是通向 AGI 的关键一步。

来自主题: AI技术研报

7966 点击 2025-06-15 15:45

AI记忆伪装被戳穿！GPT、DeepSeek等17款主流大模型根本记不住数字

最近，来自约翰・霍普金斯大学与中国人民大学的团队设计了三套实验，专门把关键线索藏在上下文之外，逼模型「凭记忆」作答，从而检验它们是否真的在脑海里保留了信息。

来自主题: AI技术研报

6894 点击 2025-06-15 15:16

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

想象一下：你正在浏览社交媒体，看到一张震撼的图片或一段令人震撼的视频。它栩栩如生，细节丰富，让你不禁信以为真。但它究竟是真实记录，还是由顶尖 AI 精心炮制的「杰作」？如果一个 AI 工具告诉你这是「假的」，它能进一步解释理由吗？它能清晰指出图像中不合常理的光影，或是视频里一闪而过的时序破绽吗？

来自主题: AI技术研报

6547 点击 2025-06-15 12:39

多智能体在「燃烧」Token！Anthropic公开发现的一切

研究多智能体必读指南。Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。

来自主题: AI技术研报

6275 点击 2025-06-14 17:52

模型遗忘不代表记忆抹除！首次系统发现「可逆性遗忘」背后规律

研究人员发现，大语言模型的遗忘并非简单的信息删除，而是可能隐藏在模型内部。通过构建表示空间分析工具，区分了可逆遗忘和不可逆遗忘，揭示了真正遗忘的本质是结构性的抹除，而非行为的抑制。

来自主题: AI技术研报

6238 点击 2025-06-14 16:09

腾讯开源最强3D生成模型，消费级显卡就能跑 | CVPR

就在刚刚的CVPR上，鹅厂3D生成模型混元3D 2.1正式宣布开源！

来自主题: AI技术研报

6829 点击 2025-06-14 15:15

全球首次，Transformer「混血」速度狂飙65倍！英伟达已下注

扩散建模+自回归，打通文本生成任督二脉！这一次，来自康奈尔、CMU等机构的研究者，提出了前所未有的「混合体」——Eso-LM。有人惊呼：「自回归危险了。」

来自主题: AI技术研报

5736 点击 2025-06-14 15:07

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

近段时间，关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。

来自主题: AI技术研报

6071 点击 2025-06-14 14:28

Figure自曝完整技术：60分钟不间断打工，我们的机器人如何做到？

好家伙，机器人进厂打工原视频流出，整整60分钟，完全未剪辑。

来自主题: AI技术研报

6708 点击 2025-06-14 13:33

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

越通用，就越World Models。我们知道，大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

来自主题: AI技术研报

6524 点击 2025-06-14 13:22

视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。

来自主题: AI技术研报

6360 点击 2025-06-14 12:43

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

大型推理模型（LRMs）在解决复杂任务时展现出的强大能力令人惊叹，但其背后隐藏的安全风险不容忽视。

来自主题: AI技术研报

7123 点击 2025-06-14 12:35

知识类型视角切入，全面评测图像编辑模型推理能力：所有模型在「程序性推理」方面表现不佳

人类在学习新知识时，总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

来自主题: AI技术研报

6205 点击 2025-06-14 12:27

DeepSeek研究员1200行代码复刻vLLM，H800硬件实测性能反超原版

仅用不到1200行代码，实现最小化且完全可读的vLLM！DeepSeek研究员俞星凯搞了个开源项目引得大伙拍手叫绝。项目名为Nano-vLLM（纳米级-vLLM），有三大特点：快速离线推理：推理速度可与vLLM相媲美

来自主题: AI技术研报

7149 点击 2025-06-13 15:41

统一20+多智能体方法，MASLab震撼发布

为了推动该领域加速健康发展，由上海交通大学、上海 AI 实验室、牛津大学、普林斯顿大学、Meta 等十个机构联合推出的 MASLab，带来首个统一、全面、研究友好的大模型多智能体系统代码库：

来自主题: AI技术研报

7743 点击 2025-06-13 15:31

黄铁军对大模型的四个预判：洗牌、安全核爆、GPT-5与再造DeepSeek

4月份，李飞飞教授领先编制的《2025年人工智能指数报告》提供的数据显示，2024年全年具有特殊影响力的模型（Notable AI models）当中，排名前5的几乎都来自美国、中国的科技巨头。

来自主题: AI技术研报

6916 点击 2025-06-13 14:14

何恺明新作：给扩散模型加正则化，无需预训练无需数据增强，超简单实现性能提升

扩散模型风头正盛，何恺明最新论文也与此相关。研究的是如何把扩散模型和表征学习联系起来—— 给扩散模型加上“整理收纳”功能，使其内部特征更加有序，从而生成效果更加自然逼真的图片。

来自主题: AI技术研报

5922 点击 2025-06-13 12:49

GraphRAG太慢LightRAG延迟高？华东师大新方法一招破解双重难题

GraphRAG的索引速度慢，LightRAG的查询延迟高？

来自主题: AI技术研报

6083 点击 2025-06-13 12:29

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式，从电影制作到广告设计，从虚拟现实到社交媒体，高质量且符合人类期望的视频生成模型正变得越来越重要。

来自主题: AI技术研报

5404 点击 2025-06-13 11:46

专治不服！Amazon重磅发布！AI的SOP高考来了！顶级Agent能考几分？

您可能会问，LLM Agent的SOP到底是什么，为什么称它为AI的高考？SOP全称是标准操作程序（Standard Operating Procedures）很多朋友可能很熟悉，但它绝不是简单的步骤清单——它更像是AI能否在工业环境中真正"上岗"的终极考验。

来自主题: AI技术研报

6577 点击 2025-06-13 11:35

AI代码补全哪家强？两个新指标+一套新框架，让模型更懂开发者

如何让AI代码补全更懂开发者？

来自主题: AI技术研报

7474 点击 2025-06-13 11:02

用Cursor「自动开发」Playwright网页自动化脚本，并打包成api给工作流调用

虽然我前面文章介绍了很多AI 工作流，但它们都是局限在自己平台里的操作，对于外部的页面，大多无能为力。

来自主题: AI技术研报

7137 点击 2025-06-13 10:53

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门，而RL是否是唯一且work的一扇门，先按下不表（不作为今天跟大家唠的重点），至少目前看来，随着o1/o3/r1/qwq..等一众语言推理模型的快速发展，正推动着LLMs和Agentic AI在不同领域的价值与作用，

来自主题: AI技术研报

7961 点击 2025-06-13 10:48