AI技术研报-这里有最前沿的人工智能技术解读

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来，扩散模型的训练通常依赖由变分自编码器（VAE）构建的低维潜空间表示。然而，VAE 的潜空间表征能力有限，难以有效支撑感知理解等核心视觉任务，同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报

6123 点击 2025-10-23 15:10

Nature点赞！哈佛MIT最新作：AI科学家时代来了

AI科学家时代正在到来，哈佛MIT最新推出的ToolUniverse，通过一个统一平台，让AI用自然语言操作600+科学工具，推动科研自动化的全面升级，迎接科学发现新范式。

来自主题: AI技术研报

9337 点击 2025-10-23 12:38

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

9838 点击 2025-10-23 12:28

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式，构建合规测试基准并训练出性能优异的推理模型，为大语言模型安全管理提供了新方向。

来自主题: AI技术研报

8829 点击 2025-10-23 12:20

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

6585 点击 2025-10-23 11:41

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

作为视频创作者，你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头，或是重现《泰坦尼克号》船头经典的追踪运镜？

来自主题: AI技术研报

7641 点击 2025-10-23 11:32

攻克长文档与多模态挑战，Paper2Video实现学术视频的自动化生产

学术展示视频作为科研交流的重要媒介，制作过程仍高度依赖人工，需要反复进行幻灯片设计、逐页录制和后期剪辑，往往需要数小时才能产出几分钟的视频，效率低下且成本高昂，这凸显了推动学术展示视频自动化生成的必要性。

来自主题: AI技术研报

8714 点击 2025-10-23 11:25

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

近日，范鹤鹤（浙江大学）、杨易（浙江大学）、Mohan Kankanhalli（新加坡国立大学）和吴飞（浙江大学）四位老师提出了一种具有划时代意义的神经网络基础操作——Translution。该研究认为，神经网络对某种类型数据建模的本质是：

来自主题: AI技术研报

8697 点击 2025-10-23 10:59

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

太卷了，DeepSeek-OCR刚发布不到一天，智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒，那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下：

来自主题: AI技术研报

8312 点击 2025-10-22 23:58

ICCV 2025最佳论文出炉！何恺明、孙剑等十年经典之作夺奖

ICCV最佳论文新鲜出炉了！今年，CMU团队满载而归，斩获最佳论文奖和最佳论文提名。同时，何恺明团队论文，RBG大神提出的Fast R-CNN，十年后斩获Helmholtz Prize，实至名归。

来自主题: AI技术研报

8010 点击 2025-10-22 15:22

Embedding黑箱成为历史！这个新框架让模型“先解释，再学Embedding”

让模型先解释，再学Embedding！来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员，最新推出可解释的生成式Embedding框架——GRACE。过去几年，文本表征（Text Embedding）模型经历了从BERT到E5、GTE、LLM2Vec，Qwen-Embedding等不断演进的浪潮。这些模型将文本映射为向量空间，用于语义检索、聚类、问答匹配等任务。

来自主题: AI技术研报

7359 点击 2025-10-22 15:00

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

7015 点击 2025-10-22 14:57

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式，推理速度比前SOTA提升4.7倍！大模型处理长序列时，KV cache的内存占用随序列长度线性增长，已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报

6696 点击 2025-10-22 14:52

SIGGRAPH Asia 2025 | OmniPart框架，让3D内容创作像拼搭积木一样简单

在3D内容创作领域，如何像玩乐高一样，自由生成、编辑和组合对象的各个部件，一直是一个核心挑战。香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手，推出了一个名为 OmniPart 的全新框架，巧妙地解决了这一难题。该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。

来自主题: AI技术研报

6145 点击 2025-10-22 14:48

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

在人工智能的广阔世界里，我们早已习惯了LLM智能体在各种任务中大放异彩。但有没有那么一瞬间，你觉得这些AI“牛马”还是缺了点什么？

来自主题: AI技术研报

8967 点击 2025-10-22 12:13

一张照片，一个3D「你」：计算所等提出HumanLift，实现高保真数字人重建

创建具有高度真实感的三维数字人，在三维影视制作、游戏开发以及虚拟/增强现实（VR/AR）等多个领域均有着广泛且重要的应用。

来自主题: AI技术研报

8982 点击 2025-10-22 12:07

比人类网瘾更可怕，AI患上“脑腐”后彻底没救

“脑腐”（Brain Rot）指的是接触了过多社交媒体的低质量、碎片化信息后，人类的精神和智力状态恶化，如同腐烂一般。它曾入选 2024 年牛津大学出版社年度热词。

来自主题: AI技术研报

7838 点击 2025-10-22 12:02

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

DeepSeek最新开源的模型，已经被硅谷夸疯了！

来自主题: AI技术研报

7799 点击 2025-10-22 11:57

清华、快手提出AttnRL：让大模型用「注意力」探索

从 AlphaGo 战胜人类棋手，到 GPT 系列展现出惊人的推理与语言能力，强化学习（Reinforcement Learning, RL）一直是让机器「学会思考」的关键驱动力。

来自主题: AI技术研报

7499 点击 2025-10-22 11:46

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

来自主题: AI技术研报

7777 点击 2025-10-22 11:33

豆包是如何炼成的？字节放出自研万卡训练系统ByteRobust论文

近日，字节跳动一篇论文介绍了他们 LLM 训练基础设施 ByteRobust，引发广泛关注。现在，在训练基础设施层面上，我们终于知道字节跳动会如何稳健地训练豆包了。

来自主题: AI技术研报

8673 点击 2025-10-22 09:51

文本已死，视觉当立！Karpathy狂赞DeepSeek新模型，终结分词器时代

AI新突破！DeepSeek-OCR以像素处理文本，压缩率小于1/10，基准测试领跑。开源一夜4.4k星，Karpathy技痒难耐，展望视觉输入的通用性。

来自主题: AI技术研报

7066 点击 2025-10-21 16:48

长生不老成真？哈佛AI数周破解「衰老密码」，人类寿命或迎重写

长生不老或将成真？近日，哈佛团队在AI系统K-Dense的助力下揭示衰老分阶段运行的秘密。科研不再是慢工出细活，而是一场AI驱动的全球军备竞赛。当长寿的密码被加速解码，人类是否已准备好面对更长的人生？

来自主题: AI技术研报

7081 点击 2025-10-21 16:37

喂了几个月的垃圾推文，大模型得了「脑腐」，这病还治不好

天天刷推，大模型的脑子也会坏掉。终于有研究证明，互联网上的烂内容会让大模型得「脑腐」。相信许多读者对「脑腐」这个词并不陌生，长时间沉浸在碎片化的网络信息中，我们经常会感到注意力下降、思维变钝。

来自主题: AI技术研报

6094 点击 2025-10-21 16:18

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

今年，流匹配无疑是机器人学习领域的大热门：作为扩散模型的一种优雅的变体，流匹配凭借简单、好用的特点，成为了机器人底层操作策略的主流手段，并被广泛应用于先进的 VLA 模型之中 —— 无论是 Physical Intelligence 的，LeRobot 的 SmolVLA, 英伟达的 GR00T 和近期清华大学发布的 RDT2。

来自主题: AI技术研报

7315 点击 2025-10-21 16:10

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

6218 点击 2025-10-21 15:53

苹果AI选Mamba：Agent任务比Transformer更好

都说苹果AI慢半拍，没想到新研究直接在Transformer头上动土。（doge）「Mamba+工具」，在Agent场景更能打！

来自主题: AI技术研报

7940 点击 2025-10-21 15:48

突破FHE瓶颈，Lancelot架构实现加密状态下的鲁棒聚合计算，兼顾「隐私保护」与「鲁棒性」

在金融、医疗等高度敏感的应用场景中，拜占庭鲁棒联邦学习（BRFL）能够有效避免因数据集中存储而导致的隐私泄露风险，同时防止恶意客户端对模型训练的攻击。然而，即使是在模型更新的过程中，信息泄露的威胁仍然无法完全规避。为了解决这一问题，全同态加密（FHE）技术通过在密文状态下进行安全计算，展现出保护隐私信息的巨大潜力。

来自主题: AI技术研报

7275 点击 2025-10-21 15:44

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

现有视觉语言大模型（VLMs）在多模态感知和推理任务上仍存在明显短板：1. 对图像中的细粒度视觉信息理解有限，视觉感知和推理能力未被充分激发；2. 强化学习虽能带来改进，但缺乏高质量、易扩展的 RL 数据。

来自主题: AI技术研报

6877 点击 2025-10-21 15:30

微软BitDistill将LLM压缩到1.58比特：10倍内存节省、2.65倍CPU推理加速

大语言模型（LLM）不仅在推动通用自然语言处理方面发挥了关键作用，更重要的是，它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性，但在下游任务中高效部署仍面临重大挑战。

来自主题: AI技术研报

6494 点击 2025-10-21 11:43

AI技术研报-这里有最前沿的人工智能技术解读

无VAE扩散模型！ 清华&可灵团队「撞车」谢赛宁团队「RAE」

Nature点赞！哈佛MIT最新作：AI科学家时代来了

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

攻克长文档与多模态挑战，Paper2Video实现学术视频的自动化生产

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

ICCV 2025最佳论文出炉！何恺明、孙剑等十年经典之作夺奖

Embedding黑箱成为历史！这个新框架让模型“先解释，再学Embedding”

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

SIGGRAPH Asia 2025 | OmniPart框架，让3D内容创作像拼搭积木一样简单

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

一张照片，一个3D「你」：计算所等提出HumanLift，实现高保真数字人重建

比人类网瘾更可怕，AI患上“脑腐”后彻底没救

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

清华、快手提出AttnRL：让大模型用「注意力」探索

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

豆包是如何炼成的？字节放出自研万卡训练系统ByteRobust论文

文本已死，视觉当立！Karpathy狂赞DeepSeek新模型，终结分词器时代

长生不老成真？哈佛AI数周破解「衰老密码」，人类寿命或迎重写

喂了几个月的垃圾推文，大模型得了「脑腐」，这病还治不好

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

苹果AI选Mamba：Agent任务比Transformer更好

突破FHE瓶颈，Lancelot架构实现加密状态下的鲁棒聚合计算，兼顾「隐私保护」与「鲁棒性」

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

微软BitDistill将LLM压缩到1.58比特：10倍内存节省、2.65倍CPU推理加速

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」