AI技术研报-这里有最前沿的人工智能技术解读

DAG革新时间序列预测，代码、数据、排行榜全开源 | ICML'26

DAG框架利用时间与通道双重相关网络，有效整合历史与未来外生变量信息，提升时间序列预测准确性。通过发现并注入相关关系，充分利用未来协变量，显著优于现有方法。

来自主题: AI技术研报

7145 点击 2026-05-18 15:28

ICML 2026 ｜让大模型边想边说：这篇文章把「何时开口」变成可学习策略

用过推理型大模型的人，大概率都熟悉这种体验：模型似乎在认真思考，但屏幕上长时间没有真正有用的内容；如果让它一开始就输出，又很容易出现仓促判断，后面的推理还要被早期错误牵着走。

来自主题: AI技术研报

9932 点击 2026-05-18 15:27

Image 2 × Seedance 2.0王炸组合：4套刷屏外网的玩法，提示词全在这了

当「地表最强生图」遇上「最强视频生成」，这对王炸组合再一次点燃了网友们的创作激情。

来自主题: AI技术研报

10564 点击 2026-05-18 10:25

「具身大一统」不是口号：北京人形再度登顶WorldArena，拿下双冠王

最近，全球的网民都化身「监工」，围观了 Figure AI 的人形机器人直播在物流传送带上连续几十个小时，不间断地分拣包裹。

来自主题: AI技术研报

8803 点击 2026-05-18 10:24

Agent Skills的表示、获取、检索和进化看这一篇综述就清楚了｜香港中文大学最新

早在2024年，人们还倾向于给Agent提供海量的工具（例如通过MCP协议连接的API、搜索引擎、代码解释器等）。但是，“拥有工具”并不等于“知道如何使用工具”。当任务变得复杂且长周期时，要求Agent每次都从头开始推理“该用哪个工具、何时用、怎么组合、出错怎么办”，会导致系统极度脆弱、延迟极高且不可靠。

来自主题: AI技术研报

6811 点击 2026-05-18 09:55

无需构造偏好对：TGO用标量反馈对齐视觉生成模型｜ICML'26

生成模型的偏好对齐，可能正在进入一个新的阶段。

来自主题: AI技术研报

10381 点击 2026-05-18 09:54

Need is all you need：AI接手Coding后，程序员最值钱的能力只剩这一项？

AI Coding的玩法，又变了。

来自主题: AI技术研报

10208 点击 2026-05-18 09:54

当SFT遇上RL：基于样本学习阶段的动态策略优化机制

过去一段时间里，在围绕大模型推理能力增强的研究中，SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快，能高效吸收高质量推理数据；后者更具探索性，有望推动模型实现复杂推理和分布外泛化。

来自主题: AI技术研报

6950 点击 2026-05-18 09:53

Z Tech｜一个词就能视觉推理？Meta 华人颠覆性提出 ATLAS 新范式

近日，Meta AI 与香港中文大学颠覆性提出了一种全新的视觉推理范式 ATLAS，不用外部工具，不显式生成中间图像，没有视觉监督信号，只用一个离散 word，首次颠覆性地代替 Agentic 和 Latent Visual Reasoning。

来自主题: AI技术研报

7844 点击 2026-05-17 15:07

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

近期，专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度，让开发者能够通过丰富的Templates来精准控制模型的生成结果。

来自主题: AI技术研报

8044 点击 2026-05-17 11:14

8B模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026

针对这一问题，上海人工智能实验室、复旦大学、上海交通大学团队提出了Thoth：一个面向生物实验protocol生成的科学推理模型。一句话概括：Thoth不是让模型“写得像protocol”，而是让模型按照实验逻辑，生成可解析、可评估、可执行的protocol。

来自主题: AI技术研报

8174 点击 2026-05-17 10:52

解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要3D数据，纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单：预训练的视频模型里面已经有 3D 知识了，只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报

8770 点击 2026-05-16 13:34

从智能体到赛博员工，生产力智能涌现

最近一两年，AI 行业有一个很微妙的变化：大家不再满足于问 “模型会不会回答”，也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题：AI 到底能不能完全自动化接管工作区，理解个性化需求，像一个真实的人类劳动力一样，把一件事情从头到尾做完？

来自主题: AI技术研报

6719 点击 2026-05-16 13:34

从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界

为了解决这一问题，来自中山大学和美团的研究团队提出了 X2SAM，一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频，还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报

7933 点击 2026-05-16 10:50

D-OPSD: 将OPSD引入扩散模型，让少步扩散模型「边跑边学」，还能学会新概念

阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD（On-Policy Self-Distillation），首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据，

来自主题: AI技术研报

8808 点击 2026-05-16 10:44

你的AI Agent正在“失忆”，腾讯开源了一味良药

TencentDB Agent Memory 全球正式开源

来自主题: AI技术研报

7892 点击 2026-05-15 10:38

Claude脑子里想的，被翻译成人话了！Anthropic新研究看懵人类

Claude的内心独白被翻译成人话了！就在今天，Anthropic开源了一台AI读心机器，然而它跑出来的第一批成果却让人触目惊心。

来自主题: AI技术研报

8931 点击 2026-05-15 10:37

商汤SenseNova U1深度拆解，原生统一架构终结缝合时代

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时，底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题：理解与生成，是否天生就该是两件事？

来自主题: AI技术研报

7319 点击 2026-05-15 10:36

博士80小时熬夜改代码，Codex 2小时交卷！科研奇点来了

就在今天，Agentic AI工程师发现：博士80小时的科研任务，Codex不到2小时就跑完了，效率差达到了40倍！其实按照旧标准，AGI早已存在了，只是全行业都在移动球门。

来自主题: AI技术研报

9683 点击 2026-05-15 09:57

90% 的AI编程费用都白花了！技术大神直接砍掉80%账单！开发者：真正烧钱的不是模型，而是无效上下文

“你花在 AI 编程上的费用，90% 都浪费在了没必要上传的上下文里！”

来自主题: AI技术研报

7844 点击 2026-05-15 09:56

首创TTFA指标！港大团队开源FASTER，让VLA模型真正实现「即刻响应」

具身智能正以前所未有的速度发展，VLA 模型展现出越来越强的动作和泛化能力。然而，当我们真正把 VLA 模型部署到物理世界时，一个核心挑战浮出水面：实时性。

来自主题: AI技术研报

8300 点击 2026-05-15 09:55

训练数据枯竭怎么办？首篇「数据价值密度」综述理清思路

当训练数据枯竭、训练成本飙升，大语言模型（LLM）训练之路该何去何从？

来自主题: AI技术研报

5955 点击 2026-05-15 09:54

突破三维感知瓶颈：魔芯科技发布VGGT系列成果，实现动态高保真重建并获新一轮融资

在迈向通用人工智能（AGI）的过程中，世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力，被广泛认为是世界模型的首要前提。通常来说，一个成熟的世界模型需要具备三大核心能力：对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。

来自主题: AI技术研报

8925 点击 2026-05-14 15:03

不是幻觉！Claude自下指令甩锅人类，百万上下文沦为降智重灾区

Claude深陷「角色混淆」Bug，分不清自己的话与用户指令，长上下文成了降智「重灾区」。

来自主题: AI技术研报

7585 点击 2026-05-14 15:02

0成本升级，快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代

针对生成式检索范式在电商搜索场景下面临的复杂查询理解不足、用户潜在意图挖掘乏力、奖励系统易过拟合历史窄偏好等落地瓶颈，快手技术团队在已规模化部署的工业级生成式搜索框架 OneSearch 基础上，发布了一篇系统性升级的研究论文，正式推出新一代框架 OneSearch-V2。

来自主题: AI技术研报

9029 点击 2026-05-14 14:25

ACL 2026｜打破推理同质化！阿里达摩院新作让RLVR从重复采样走向有效探索

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架，通过改进 rollout 策略引导模型生成更多样化的推理轨迹，将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”，在多个数学基准上同时提升准确率与语义多样性，最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main，来自阿里达摩院 - 智能决策团队。

来自主题: AI技术研报

9570 点击 2026-05-14 14:24