AI技术研报-这里有最前沿的人工智能技术解读

后生可畏！何恺明团队新成果发布，共一清华姚班大二在读

继今年5月提出MeanFlow (MF) 之后，何恺明团队于近日推出了最新的改进版本—— Improved MeanFlow (iMF)，iMF成功解决了原始MF在训练稳定性、指导灵活性和架构效率上的三大核心问题。

来自主题: AI技术研报

5522 点击 2025-12-04 10:30

突破具身智能任务规划边界，刷新具身大脑多榜单SOTA，中兴EmbodiedBrain模型让具身大脑学会「复杂规划」

在人工通用智能（AGI）的探索征程中，具身智能 Agents 作为连接数字认知与物理世界的关键载体，其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环。

来自主题: AI技术研报

9034 点击 2025-12-04 10:27

斯坦福用一句Prompt就结束了提示工程。。。

最近口述采样很火。如果您经常使用经过“对齐”训练（如RLHF）的LLM，您可能已经注意到一个现象：模型虽然变得听话、安全了，但也变得巨“无聊”。

来自主题: AI技术研报

5712 点击 2025-12-04 10:25

突破AI记忆瓶颈，耶鲁博士新成果破解阅读失忆难题

当你阅读《红楼梦》《哈利·波特》《百年孤独》等长篇小说时，读着读着可能就忘记前面讲了什么，有时还会搞混人物关系。AI 在阅读长文章的时候也存在类似问题，当文章太长时它也会卡主，要么读得特别慢，要么记不住前面的内容。

来自主题: AI技术研报

7917 点击 2025-12-04 10:23

人形机器人控制新突破！敏捷稳定两不误，一个策略让人形机器人完成叶问蹲和跳舞｜港大&英伟达&清华

叶问蹲、跳舞、跑步，一个策略全搞定！

来自主题: AI技术研报

6798 点击 2025-12-04 10:00

从 LLM 到 World Model：为什么我们需要能理解并操作世界的空间智能？

如今 LLM 的语言理解与生成能力已展现出惊人的广泛适用性，但随着 LLM 的发展，一个事实越发凸显：仅靠语言，仍不足以支撑真正的智能。

来自主题: AI技术研报

9377 点击 2025-12-04 09:57

当Gemini 3刷屏时，这款AI已开始救命了：原子级攻克「不可成药」靶点

医药圈彻底炸了！全网都在玩Gemini，却没看到生物学界再现「AlphaFold时刻」。

来自主题: AI技术研报

10220 点击 2025-12-03 16:08

为什么给机器人装上昂贵的触觉传感器，反而让它变笨了？

这项工作由伊利诺伊大学香槟分校 (UIUC)、哈佛大学、哥伦比亚大学和麻省理工学院 (MIT) 的合作完成。

来自主题: AI技术研报

9535 点击 2025-12-03 15:12

句子级溯源+生成式归因，C²-Cite重塑大模型可信度

在人工智能快速发展的今天,大语言模型已经深入到我们工作和生活的方方面面。然而,如何让AI生成的内容更加可信、可追溯, 一直是学术界和工业界关注的焦点问题。想象一下,当你向ChatGPT提问时,它不仅给出答案,还能像学术论文一样标注每句话的信息来源——这就是"溯源大语言模型"要解决的核心问题。

来自主题: AI技术研报

5626 点击 2025-12-03 10:44

Struct Array 如何让多向量检索返回完整实体？知识库、电商、视频通用|Milvus Week

本文为Milvus Week系列第二篇，该系列旨在分享Zilliz、Milvus在系统性能、索引算法和云原生架构上的创新与实践，以下是DAY2内容划重点： Struct Array + MAX_SIM ，能够让数据库看懂 “多向量组成一个实体” 的逻辑，进而原生返回业务要的完整结果

来自主题: AI技术研报

8803 点击 2025-12-03 10:43

AI 社交增长范式重构：“价值重估”与市场分化

上周，X博士发布了《中国In-App AI生态演进》报告，揭示了国内移动互联网下半场关于“意图主权”的隐秘争夺。今天，X博士将目光投向更广阔的全球赛道——《ChatGPT“嵌入”社交链：AI社交从“

来自主题: AI技术研报

7867 点击 2025-12-03 10:15

迎接「万物皆可RAG」时代：最新综述展示50多种多模态组合的巨大待探索空间

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成（RAG）来产生用户问题的答案。随着多模态大模型（MLLMs）的崛起，大模型的主流技术之一 RAG 迅速向多模态发展，形成多模态检索增强生成（MM-RAG）这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

来自主题: AI技术研报

6112 点击 2025-12-03 09:54

解读CUDA

“既然我可以直接使用 PyTorch，为什么还要费心使用 CUDA 呢?”

来自主题: AI技术研报

8896 点击 2025-12-03 09:51

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

VLA模型性能暴涨300%，背后训练数据还首次实现90%由世界模型生成。

来自主题: AI技术研报

8378 点击 2025-12-02 17:02

arXiv禁用AI，糊涂！18所高校联合发布首个AI科研评审平台

arXiv最新政策禁止直接接收未经同行评审的综述和立场论文，以应对AI生成论文的泛滥，但堵不如疏。多伦多大学、清华、北大等18所国内外顶尖高校联合发布新平台aiXiv，支持AI和人类共同撰写、评审和迭代科研成果，采用多阶段AI同行评审机制，提升效率和质量。

来自主题: AI技术研报

7662 点击 2025-12-02 16:34

进化Dify！还支持MCP，这款开源AI数据库绝了～【附喂饭级教程】

大家好，我是袋鼠帝。最近我在折腾本地AI知识库的时候，在Github发现了一个特别有意思的新项目，叫seekdb。

来自主题: AI技术研报

7728 点击 2025-12-02 16:27

无需标注图像，VLM也能「自我进化」！RL自我进化框架VisPlay突破视觉推理难题

在 Vision-Language Model 领域，提升其复杂推理能力通常依赖于耗费巨大的人工标注数据或启发式奖励。这不仅成本高昂，且难以规模化。

来自主题: AI技术研报

8917 点击 2025-12-02 15:22

全面战胜ReAct！斯坦福全新智能体推理框架，性能提升112.5%

斯坦福和MIT的研究团队推出了一种新的AI智能体推理框架ReCAP，在长上下文任务中全面超越了现有的主流框架ReAct，性能提升显著。ReCAP通过独特的递归树结构和三大机制，解决了大语言模型在复杂任务中常见的目标漂移、上下文断层和成本爆炸等问题。

来自主题: AI技术研报

9736 点击 2025-12-02 15:20

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报

8179 点击 2025-12-02 15:17

DeepSeek-V3.2｜技术报告解读

这是一篇报告解读，原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》

来自主题: AI技术研报

7861 点击 2025-12-02 10:46

AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

随着大语言模型（LLM）的商业价值快速提升，其昂贵的训练成本使得模型版权保护（IP Protection）成为业界关注的焦点。然而，现有模型版权验证手段（如模型指纹）往往忽略一个关键威胁：攻击者一旦直接窃取模型权重，即拥有对模型的完全控制权，能够逆向指纹 / 水印，或通过修改输出内容绕过指纹验证。

来自主题: AI技术研报

8013 点击 2025-12-02 10:20

字节视频模型超越Gemini 3 Pro！理解能力爆表，小时级素材也能直出剪辑方案

字节新视频模型Vidi2，理解能力超过了Gemini 3 Pro。

来自主题: AI技术研报

8878 点击 2025-12-02 10:19

88.9 倍性能飙升！JSON Shredding 让 JSON 查询告别全表扫描| Milvus Week

本文为Milvus Week系列第一篇，该系列旨在分享Zilliz、Milvus在系统性能、索引算法和云原生架构上的创新与实践，以下是DAY1内容划重点：

来自主题: AI技术研报

6695 点击 2025-12-02 10:17

英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子

当今自动驾驶模型越来越强大，摄像头、雷达、Transformer 网络一齐上阵，似乎什么都「看得见」。但真正的挑战在于：模型能否像人一样「想明白」为什么要这么开？

来自主题: AI技术研报

7549 点击 2025-12-02 09:19

Claude Agent Skills第一性原理深度解析

最近看到一篇关于Claude Skills的质量非常高的文章，标题：Claude Agent Skills: A First Principles Deep Dive 链接：https://leehanchung.github.io/blogs/2025/10/26/claude-skills-deep-dive/

来自主题: AI技术研报

8932 点击 2025-12-02 09:05

深入AI Agent内核: Google gemini-cli 源码深度解构

随着大语言模型与开发工具链的深度融合，命令行终端正被重塑为开发者的AI协作界面。本文以 Google gemini-cli 为范本，通过源码解构，系统性分析其 Agent 内核、ReAct 工作流、工具调用与上下文管理等核心模块的实现原理。为希望构建终端 Agent 的开发者，提供工程实现的系统化参考。

来自主题: AI技术研报

7835 点击 2025-12-01 16:15

6B文生图模型，上线即登顶抱抱脸

6B小模型，首日下载量高达50万次，上线不到两天直接把HuggingFace两个榜单都冲了个第一。

来自主题: AI技术研报

6608 点击 2025-12-01 15:13

那些"无聊"的 AI 细分市场，正在批量创造百万富翁

为什么 AI 让小众市场突然变得值钱了！Ben 提出了一个非常关键的洞察：软件革命催生了 6500 亿美元的软件市场，但 AI 是第一个真正能够自动化劳动力的技术，这意味着我们现在面对的是一个 10 万亿美元的劳动力市场，仅在美国就有这么大的规模。到目前为止，只有 0.2% 的劳动力市场被自动化了。这个数字让我震惊，因为它意味着我们还处在这场革命的最初阶段，99.8% 的机会还在等待被发掘。

来自主题: AI技术研报

7594 点击 2025-12-01 15:10

2025必看系列：AI如何重新定义研究？万字长文讲透Deep Research

如果AI的终极使命是拓展人类认知的边界，那么“研究”——这项系统性探索未知的核心活动，无疑是其最重要的试金石。2024年，AI Agent技术迎来突破性进展，一个名为 Deep Research（深度研究）的方向正以前所未有的速度站上风口，成为推动“AI应用元年”的真正引擎。

来自主题: AI技术研报

10302 点击 2025-12-01 15:08

如何让Agent具备「情感」当前趋势、挑战与未来｜来自298篇研究的最新综述

在当前的情感计算研究中，存在一个显著的“断层”：我们拥有越来越精准的情感识别算法（输入端），也有了逼真的语音和面部生成技术（输出端），但连接这两端的“中间层”却鲜有人问津。机器能识别出你在愤怒，也能模拟出抱歉的语气，但它真的理解愤怒的起因吗？它能基于这种理解去调整后续的决策逻辑吗？

来自主题: AI技术研报

7602 点击 2025-12-01 14:33