AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖

同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖

同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖

LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施,达到了 76.4% 的通过率,超过了所有人工设计的方案。

来自主题: AI技术研报
8642 点击    2026-04-08 10:23
Claude Mythos Preview来了!强大又危险,Anthropic还专门组了个研究团

Claude Mythos Preview来了!强大又危险,Anthropic还专门组了个研究团

Claude Mythos Preview来了!强大又危险,Anthropic还专门组了个研究团

和之前 Claude Code 泄漏的代码揭示的一样,Claude Mythos 它真的来了。今天凌晨,Anthropic 发布了大量关于其新模型 Claude Mythos Preview 的信息(包含一份长达 244 页的系统卡)。同时,Anthropic 还宣布了一个基于此模型的 AI 网络安全项目 Project Glasswing。

来自主题: AI技术研报
8439 点击    2026-04-08 09:54
关于具身智能「触觉」,你想知道的都在这篇综述里了

关于具身智能「触觉」,你想知道的都在这篇综述里了

关于具身智能「触觉」,你想知道的都在这篇综述里了

在具身智能的感知拼图中,触觉一直扮演着不可或缺却难以被完美量化的角色。它提供了视觉等远程传感器无法替代的关于接触几何、材料特性和交互动态的直接反馈。

来自主题: AI技术研报
6553 点击    2026-04-08 09:14
CVPR 2026|DROID-W:复杂室外动态场景,也能稳定SLAM

CVPR 2026|DROID-W:复杂室外动态场景,也能稳定SLAM

CVPR 2026|DROID-W:复杂室外动态场景,也能稳定SLAM

SLAM 在自动驾驶、机器人、AR/VR 乃至具身智能系统中都是至关重要的环节,它决定了算法能否在一个陌生环境中一边“看懂世界”,一边“知道自己在哪”。

来自主题: AI技术研报
7146 点击    2026-04-08 09:13
AI邪修时刻!Meta联手MIT投毒,左脚踩右脚强行升天

AI邪修时刻!Meta联手MIT投毒,左脚踩右脚强行升天

AI邪修时刻!Meta联手MIT投毒,左脚踩右脚强行升天

Meta SOAR用「剧毒数据」当垫脚石,硬生生把模型从Fail@128的认知黑洞里拽出来,推理能力暴涨9.3%!2026年,这才是最硬核的反杀路线。

来自主题: AI技术研报
5906 点击    2026-04-07 14:57
CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」

CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」

CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」

如果把手机屏幕想象成一个舞台,GUI 智能体就是台下那个 “被授权动手” 的人:它能看懂屏幕上的按钮、输入框和弹窗,能按你的指令去点、去滑、去输入。

来自主题: AI技术研报
10026 点击    2026-04-07 14:28
用雨伞「钓」无人机?首个针对自主目标跟踪闭环系统的物理攻击

用雨伞「钓」无人机?首个针对自主目标跟踪闭环系统的物理攻击

用雨伞「钓」无人机?首个针对自主目标跟踪闭环系统的物理攻击

研究者用特制雨伞干扰无人机视觉系统,让其误判目标在远去,从而失控俯冲。FlyTrap攻击无需信号干扰,仅靠物理图案就能欺骗多款商用无人机,实现静默捕获或击毁。实验显示,物理闭环攻击成功率超60%,且对新人物、新场景均有强泛化能力。这项研究揭示了AI感知系统的重大安全隐患,警示我们:视觉安全正成为智能设备的阿喀琉斯之踵。

来自主题: AI技术研报
9766 点击    2026-04-07 14:28
北大团队改造DeepSeek注意力,速度快四倍还不丢精度

北大团队改造DeepSeek注意力,速度快四倍还不丢精度

北大团队改造DeepSeek注意力,速度快四倍还不丢精度

就在大家都急头白脸地等待DeepSeek-V4的时候,冷不丁一篇新论文引起了网友们的注意—— 提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文的索引瓶颈,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。

来自主题: AI技术研报
6982 点击    2026-04-07 10:30
斯坦福最新研究:睡一觉,AI 就知道你还能活多久

斯坦福最新研究:睡一觉,AI 就知道你还能活多久

斯坦福最新研究:睡一觉,AI 就知道你还能活多久

通过一晚上的睡眠,AI 模型就能监控最多 130 种疾病。

来自主题: AI技术研报
6913 点击    2026-04-07 10:02
访谈|Codex 团队如何用自己的产品构建产品——整个 Spec 只有 10 个要点

访谈|Codex 团队如何用自己的产品构建产品——整个 Spec 只有 10 个要点

访谈|Codex 团队如何用自己的产品构建产品——整个 Spec 只有 10 个要点

OpenAI Codex 团队的产品规格文档只有 10 个要点。不是说每个功能的文档只有 10 个要点,而是整个产品的 spec 就这么多。设计师写的代码量超过了六个月前工程师写的。50 到 100 人的团队,直到最近才有了第二个产品经理。

来自主题: AI技术研报
5730 点击    2026-04-07 10:02
跨越智能体落地的可信鸿沟:玄甲(AgentWard)全链路防御操作系统正式发布

跨越智能体落地的可信鸿沟:玄甲(AgentWard)全链路防御操作系统正式发布

跨越智能体落地的可信鸿沟:玄甲(AgentWard)全链路防御操作系统正式发布

大模型技术正在经历一场从 “对话助手” 向 “自主智能体(Agent)” 的深刻演进。智能体不再局限于被动地理解与生成,而是具备了多步规划、工具调用、长期记忆与管理物理 / 数字世界的能力,正逐步深度嵌入企业侧的核心业务流程。这意味着,AI 的边界已从虚拟屏幕的对话框,正式延伸到了真实的生产系统中。

来自主题: AI技术研报
7996 点击    2026-04-07 10:00
USC团队发布HumDex:攻克人形机器人数据瓶颈,低成本实现全身灵巧操控

USC团队发布HumDex:攻克人形机器人数据瓶颈,低成本实现全身灵巧操控

USC团队发布HumDex:攻克人形机器人数据瓶颈,低成本实现全身灵巧操控

人形机器人全身灵巧操作是通向通用具身智能的核心目标之一。在这一愿景下,机器人不仅需要双臂与高自由度多指灵巧手的精细协调,还需要与全身位姿(如行走、弯腰)进行动态配合。

来自主题: AI技术研报
5200 点击    2026-04-07 09:26
首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测

首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测

首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测

来自复旦大学、上海创智学院的研究人员提出 LifeSim,一个面向个性化助手评测的长程用户生活模拟框架。LifeSim 同时建模用户内部认知过程与外部物理环境,生成连贯的生活轨迹、事件序列与多轮交互行为;在此基础上,研究团队进一步构建了 LifeSim-Eval,用于系统评测模型在长期个性化交互中的能力边界。

来自主题: AI技术研报
7474 点击    2026-04-06 10:20
彻底改写!BVP权威报告:AI制药每年高达1000亿美元市场,5大产业链将被颠覆!

彻底改写!BVP权威报告:AI制药每年高达1000亿美元市场,5大产业链将被颠覆!

彻底改写!BVP权威报告:AI制药每年高达1000亿美元市场,5大产业链将被颠覆!

近日,Bessemer Venture Partners发布AI+生命科学路线图,分析今年AI医药的发展趋势。 该报告的核心观点是:AI正在彻底改变制药和生命科学行业,每年能创造超1000亿美元新价值,但目前只有5%的企业真正用起来。

来自主题: AI技术研报
7860 点击    2026-04-05 10:02
跨物体融合新突破!从拼贴到创造:AI学会「生」出新物体

跨物体融合新突破!从拼贴到创造:AI学会「生」出新物体

跨物体融合新突破!从拼贴到创造:AI学会「生」出新物体

AI不再只是把两个物体「放一起」,而是真正造出一个新实体。VMDiff模型通过分阶段策略:先拼接保留信息,再插值融合成整体,并自动调节平衡,让生成结果既像两者,又自然统一。 过去,很多图像生成模型都能同时画出两个物体;但要让它们真正「长成一个新物体」,其实远没有那么简单。

来自主题: AI技术研报
8065 点击    2026-04-04 10:58
快手广告系统全面迈入生成式推荐时代!GR4AD:从Token到Revenue的全链路重构

快手广告系统全面迈入生成式推荐时代!GR4AD:从Token到Revenue的全链路重构

快手广告系统全面迈入生成式推荐时代!GR4AD:从Token到Revenue的全链路重构

快手的这篇论文,正是对这一问题交出的一份沉甸甸的工业级答卷。他们提出了 GR4AD(Generative Recommendation for ADvertising),一个横跨表征、学习、服务三大层面协同设计的生成式广告推荐系统,并已全量部署于快手广告平台,服务超过 4 亿用户。

来自主题: AI技术研报
8159 点击    2026-04-04 10:58
斯坦福MIT联合发布Meta-Harness,Agent端到端自己优化自己,Dspy一作Omar参与研究

斯坦福MIT联合发布Meta-Harness,Agent端到端自己优化自己,Dspy一作Omar参与研究

斯坦福MIT联合发布Meta-Harness,Agent端到端自己优化自己,Dspy一作Omar参与研究

去年讨论Agent落地时,重点往往是Context Engineering。大家都在琢磨怎么放 Few-shot,怎么优化 RAG 检索的文本片段。但随着 Agent 任务复杂度的上升,控制数据流向、工具调度和异常处理的底层脚手架代码,往往比单纯拼接文本对系统性能的影响更大。

来自主题: AI技术研报
7604 点击    2026-04-03 09:26
Claude Code 源码震撼泄露,一起学习下最前沿的 Harness 工程

Claude Code 源码震撼泄露,一起学习下最前沿的 Harness 工程

Claude Code 源码震撼泄露,一起学习下最前沿的 Harness 工程

3 月 31 日下午,技术圈炸了锅: Claude Code,这款被公认为当前最强的 AI 编程助手,因为一次内部失误,核心代码逻辑暴露在了全球开发者面前。

来自主题: AI技术研报
9677 点击    2026-04-03 09:25
重构跨域RL框架!理论驱动「双重对齐」让跨域迁移「质变」

重构跨域RL框架!理论驱动「双重对齐」让跨域迁移「质变」

重构跨域RL框架!理论驱动「双重对齐」让跨域迁移「质变」

在现实世界中通过强化学习训练智能体,往往需要大量在线试错与环境探索,这不仅成本高昂,还可能带来显著安全风险:机器人可能因试错而损坏,自动驾驶的在线探索可能危及行车安全,而持续采集交互数据本身也代价巨大。

来自主题: AI技术研报
7928 点击    2026-04-03 09:25
哈佛医学院做了5679次组学分析:大模型能力没差别,关键在验证

哈佛医学院做了5679次组学分析:大模型能力没差别,关键在验证

哈佛医学院做了5679次组学分析:大模型能力没差别,关键在验证

生物医学AI智能体正从「能不能做组学分析」快速进入下一阶段的检验:做出来的结果,能不能撑得住真实的治疗决策?哈佛医学院Zitnik团队的MEDEA 给出了一条明确的技术路线:与其追求更强的骨干大模型,不如在分析流程的每一步嵌入验证机制。

来自主题: AI技术研报
8064 点击    2026-04-02 16:22
ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

近年来,Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。但当系统从单机器人扩展到多机器人时,问题开始变得棘手。

来自主题: AI技术研报
10094 点击    2026-04-02 16:22