AI技术研报-这里有最前沿的人工智能技术解读

AI Scientists的下一站是社会科学：清华团队推出「硅基社会实验室」AgentSociety²

在《三体》式的科幻想象中，文明可以被遥远地观察，社会可以被冷静地记录，人类行为仿佛成为一个可被推演的复杂系统。

来自主题: AI技术研报

10532 点击 2026-06-16 10:23

腾讯Robotics X开源HyVLA-0.5：基于亚毫米级指套UMI与真机强化，摆脱繁重遥操

6 月 15 日，腾讯 Robotics X、福田实验室与混元团队联合发布面向真实世界机器人操作任务的端到端具身智能模型 Hy-Embodied-0.5-VLA（简称 HyVLA-0.5）。

来自主题: AI技术研报

10545 点击 2026-06-16 10:21

给音视频生成打草稿！复旦&腾讯提出Baton：首创语义蓝图指引，实现音画逻辑精准同步

当用户给出一句简单提示词时，当前的音视频生成模型往往已经能够生成具有不错质量的视听内容。然而，一旦提示词变得复杂，问题便开始暴露出来。

来自主题: AI技术研报

10033 点击 2026-06-16 09:54

用国产GPU训练AI给自己写内核，摩尔线程刷榜硬核基准

国产算力生态的难题，从此有了 AI 解。

来自主题: AI技术研报

6404 点击 2026-06-16 09:54

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

当视频生成模型走出娱乐创作的舒适区，进入科学、医疗、教育等知识密集场景，它们是否还能生成事实准确、清晰可用的视频？

来自主题: AI技术研报

9794 点击 2026-06-16 09:53

ICLR 2026｜美图提出位置编码场 PE-Field ，让 DiT 感知和控制 3D 空间

PE-Field将传统的2D位置编码扩展为结构化的3D场，使DiT能够更加直接地在3D空间中处理几何信息。

来自主题: AI技术研报

6408 点击 2026-06-16 09:52

低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超

AI网关OrcaRouter最近上线了一套可编程路由策略Routing DSL，多个模型同时答题，自动仲裁出最优解。几个你现在就能调用的“常规模型”，给它来个组合编排，跑出来的综合胜率，直接掀翻了Fable 5的单体基准线。Opus 4.8打不过Fable 5，GPT-5.5也单挑不过，但这两个拼一组，结果就反超了。

来自主题: AI技术研报

10134 点击 2026-06-15 15:12

一夜反转！「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

昨天，AI 圈大都被这一新闻「刷屏」：巴西里约热内卢市政府旗下的一家 IT 公司，平地一声雷地推出一款名为「Rio 3.5」397B 的开源模型，甚至还一路逆袭杀进了全球第一梯队，超越 Qwen 3.7 Plus 等开源模型，在多项基准测试中斩获 SOTA 性能。

来自主题: AI技术研报

6809 点击 2026-06-15 14:50

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

如果你在三年前问AI圈：未来最强的AI长什么样？

来自主题: AI技术研报

9423 点击 2026-06-15 14:21

代码定位太慢？蚂蚁ACL2026新作：FuseSearch-4B让模型自己学会「该搜多少」

新智元报道【新智元导读】FuseSearch：学习型自适应并行执行 —— 一个40亿参数的模型，凭什么在代码定位上干过了商用闭源大模型？答案只有四个字：搜得更聪明。在AI编程狂飙突进的今天，一个尴

来自主题: AI技术研报

6174 点击 2026-06-15 14:20

把真实GitHub仓库转化为可执行终端轨迹！TerminalTraj入选ICML 2026

被ICML 2026接收为Spotlight！

来自主题: AI技术研报

6686 点击 2026-06-15 13:51

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

好家伙，这次不是模型圈自嗨。

来自主题: AI技术研报

7926 点击 2026-06-15 10:23

啥？Fable 5一出，Skill和Prompt都白学了？

Workflow、Skill、SOP，可能真的要过时了。

来自主题: AI技术研报

9197 点击 2026-06-15 10:22

登Nature子刊！清华团队提出全球气候模态统一预测模型UniCM

全球气候异常事件正在深刻影响农业生产、水资源调度、能源管理和防灾减灾。

来自主题: AI技术研报

7526 点击 2026-06-15 09:48

视频生成作为多模态推理新范式 | CVPR 2026

被CVPR 2026收录！

来自主题: AI技术研报

9802 点击 2026-06-15 09:47

0.6B VLM重塑AI修图推理流程，支持手机端侧部署，vivo+浙大出品

如今手机拍照已成日常，后期修图是提升照片质感的关键。

来自主题: AI技术研报

9431 点击 2026-06-15 09:21

BudgetMem：给Runtime Agent Memory装上「预算路由器」，让记忆系统学会按需分配运行成本

当 LLM Agent 处理长期对话、多轮交互和复杂文档时，Memory 已经成为不可或缺的核心模块。它帮助智能体保存历史、检索信息、维持个性化上下文，并支撑跨时间的推理能力。

来自主题: AI技术研报

8493 点击 2026-06-15 09:20

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物，但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界？

来自主题: AI技术研报

5832 点击 2026-06-15 09:19

图片越糊越危险？西湖大学发现多模态大模型「攻击舒适区」

多模态大模型越来越会读图中文字，但最新研究显示，「读得出来」并不等于「防得住」。西湖大学 AGI Lab 的研究团队发现，当有害文本被渲染成低清、模糊或带噪图片后，模型在一个特定清晰度区间内反而更容易被越狱。

来自主题: AI技术研报

6994 点击 2026-06-15 09:19

看不清就乱答？多模态大模型的这个毛病终于有解了 | ICML 2026

雨雪、雾霾、镜头噪点、压缩失真、夜间弱光……

来自主题: AI技术研报

7286 点击 2026-06-15 09:19

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

随着AI Coding、Agent、Deep Research 等应用快速普及，模型单次处理的上下文长度正在从几万Token迈向几十万甚至百万Token。

来自主题: AI技术研报

9463 点击 2026-06-15 09:18

CVPR 2026 | GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

自动驾驶世界模型的研究目标已经从单纯预测未来视觉帧，扩展到构建可用于场景理解、空间定位和后续决策的世界表示。如果模型只能生成外观上合理的未来图像，却无法回答场景中有哪些目标、目标位于何处，以及不同视角下的空间结构如何变化，那么它仍然缺少对三维驾驶环境的显式建模能力。

来自主题: AI技术研报

9338 点击 2026-06-15 09:18

PEFT方法评测不能只看下游分：通用能力损失也该被量化

近期，来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡（stability–plasticity trade-off）视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示，并开源了完整代码。

来自主题: AI技术研报

9874 点击 2026-06-14 10:38

谷歌官宣3万字路线图：1亿人类水平的AI就是ASI！

谷歌DeepMind宣布：AGI，已经过时了！就在最近，谷歌DeepMind出了一份干货满满的57页报告，标题只有四个词：《从AGI到ASI》。论文地址：https://arxiv.org/abs/2606.12683

来自主题: AI技术研报

9137 点击 2026-06-14 10:36

争论几十年的水之谜，被AI一举破解！港城大&中石大成果登Nature Physics

香港城市大学曾晓成教授与中国石油大学（华东）钟杰教授团队给出了终结级的分子水平证据，成果发表于《Nature Physics》。他们首创了一套无监督深度学习框架，不给AI任何预设条件，直接把海量水系统中7400多万个水分子结构扔给模型，让AI自己去悟。结果不仅直接证明常压水里确实存在两种「暗」组份，还把A/B水分子相互变身的「立交桥」路线图给完整画了出来。

来自主题: AI技术研报

9593 点击 2026-06-13 10:42

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

刚刚，UC伯克利放出了一场号称“智能体最后的考试”的全新基准测试。它把当今最强的AI Agent们拉到考场上，让它们干真正的活——在Siemens NX里建3D模型、在Unreal Engine里搭游戏场景、在Adobe After Effects里做特效合成。

来自主题: AI技术研报

9077 点击 2026-06-13 10:41

Harness 之后，硅谷 AI 圈又来新词了：Loop Engineering

硅谷 AI 圈又来了个新词：Loop Engineering。大佬们纷纷表态，别再手动验证和写提示词了，该让 Agent 自己循环完成工作了。 OpenClaw 开发者 Peter Steinberger 带火了这个讨论，Claude Code 负责人 Boris Cherny 也说他已经不怎么在 Claude Code 里输入提示词了，而是去写 loops。

来自主题: AI技术研报

9169 点击 2026-06-13 10:22

CVPR 2026 | 视觉脑机迈向双向交互！神经流模型 NeuroFlow 打通视觉与神经的双向通道

来自上海人工智能实验室、香港大学、香港中文大学等机构的研究团队，提出首个基于统一神经流模型的视觉-神经双向建模框架NeuroFlow，相关成果入选 CVPR 2026。它首次将视觉编码（写脑）与解码（读脑）整合到同一可逆流结构中，打通视觉感知与神经活动之间的双向通路，为理解人类视觉认知机制、构建下一代通用视觉假体与双向脑机接口提供了全新范式。

来自主题: AI技术研报

7716 点击 2026-06-13 10:12

终于找到一键做爆款AI短视频的办法了！OiiOii 2.0升级实测【保姆级教程】

我最近专门调研了一下AI短视频🧐。发现市场规模是越来越大。

来自主题: AI技术研报

8814 点击 2026-06-12 10:47

AI智能体走出实验室！中科院等机构联合发布首个OpenClaw系统性综述

上下文攻击、供应链渗透、AI社区崩溃……当大模型智能体真正进入开放世界，挑战远比想象中复杂。

来自主题: AI技术研报

7470 点击 2026-06-12 10:14