AI技术研报-这里有最前沿的人工智能技术解读

Gemini手搓3D粒子特效，体验现实版钢铁侠

无需懂一行代码，Gemini 3正在重塑3D交互创作的边界！详细对比了Canvas与AI Studio在开发场景下的独特优势，带你亲身体验这场「零门槛」的3D交互革命。

来自主题: AI技术研报

7990 点击 2025-12-08 09:53

近乎零成本破解模型幻觉！清华团队最新研究：逆向验证法，让 AI 停止“瞎扯”，只需先验证再作答

关于如何避免让大语言模型产生幻觉，一直以来的相关研究都非常多。

来自主题: AI技术研报

5377 点击 2025-12-08 09:47

谷歌祭出Transformer杀手，8年首次大突破！掌门人划出AGI死线

谷歌DeepMind掌门人断言，2030年AGI必至！不过，在此之前，还差1-2个「Transformer级」核爆突破。恰在NeurIPS大会上，谷歌甩出下一代Transformer最强继任者——Titans架构。

来自主题: AI技术研报

10192 点击 2025-12-08 08:59

他们让万亿参数RL学会了「省着跑」，顺便砍掉九成算力

2025年，AI大模型的竞争焦点正在发生根本性转移。

来自主题: AI技术研报

7298 点击 2025-12-08 08:57

Agent2025年终报告来了，UC伯克利、斯坦福和IBM联合发布

2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷，并深度访谈了20个已经成功落地并产生价值的一线企业案例（涵盖金融、科技、医疗等领域）。试图回答一个最朴素的工程问题：一个能用的、赚钱的Agent，到底是用什么架构搭出来的？

来自主题: AI技术研报

6135 点击 2025-12-08 08:52

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

当问题又深又复杂时，一味上最强模型既贵又慢。测试时扩展能想得更久，却不一定想得更对。

来自主题: AI技术研报

9484 点击 2025-12-08 08:51

浙大00后硕士破局AI记忆难题！新技术让长对话响应速度快十余倍

走上了堪称是“最佳 AI 转型路径”之后，他也在读研期间和合作者针对 AI 记忆开展了一项研究，借此发明出一种名为 LightMem（轻量记忆）的技术。在 LongMemEval 和 LoCoMo 这两个专门用于考察 AI 长期记忆能力的基准测试上，LightMem 回答问题的准确率全面超越之前的冠军模型，最高提升了 7% 以上，在某些数据集上甚至提升了将近 30%。

来自主题: AI技术研报

7262 点击 2025-12-06 11:15

无情淘汰PPT选手！美国AI创业圈，PhD才是敲门砖

在AI浪潮中，博士学位正成为创业者的新宠，取代了传统的MBA文凭。昔日辍学神话渐成例外，如今的技术精英们凭借科研深度，引领小型高效团队迅速崛起。

来自主题: AI技术研报

6574 点击 2025-12-06 11:12

谷歌新架构突破Transformer超长上下文瓶颈！Hinton灵魂拷问：后悔Open吗？

两项关于大模型新架构的研究一口气在NeurIPS 2025上发布，通过“测试时训练”机制，能在推理阶段将上下文窗口扩展至200万token。两项新成果分别是：Titans：兼具RNN速度和Transformer性能的全新架构；MIRAS：Titans背后的核心理论框架。

来自主题: AI技术研报

6958 点击 2025-12-06 11:10

基于文本AI的终结？Agent协作可直接「复制思维」，Token效率暴涨

一直以来，传统 MAS 依赖自然语言沟通，各个 LLM 之间用文本交流思路。这种方法虽然可解释，但冗长、低效、信息易丢失。LatentMAS 则让智能体直接交换内部的隐藏层表示与 KV-cache 工作记忆，做到了：

来自主题: AI技术研报

7036 点击 2025-12-06 11:08

首帧的真正秘密被揭开了：视频生成模型竟然把它当成「记忆体」

在 Text-to-Video / Image-to-Video 技术突飞猛进的今天，我们已经习惯了这样一个常识：视频生成的第一帧（First Frame）只是时间轴的起点，是后续动画的起始画面。

来自主题: AI技术研报

7962 点击 2025-12-06 11:03

告别「2D错觉」，SpatialActor通过解耦语义与几何，为具身智能注入强鲁棒空间基因

作者在包含 50 多个任务的多个仿真和真实世界场景中评估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成绩，达到 SOTA 水平；在不同噪声条件下，性能提升了 13.9% 至 19.4%，展现出强大的鲁棒性。目前该论文已被收录为 AAAI 2026 Oral，并将于近期开源。

来自主题: AI技术研报

7338 点击 2025-12-06 10:59

视频模型也能推理，Sora2推理能力超过GPT-5

DeepWisdom研究团队提出：视频生成模型不仅能画画，更能推理。为了验证这一观点，团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理（spatial reasoning）能力的基准测试

来自主题: AI技术研报

7553 点击 2025-12-06 10:57

北航领衔发布300页代码智能综述：从基础模型到智能体，一次读懂Code LLM全景图

这篇学术论长文由北京航空航天大学复杂关键软件环境全国重点实验室领衔。《From Code Foundation Models to Agents and Applications》一文是对过去几年代码智能领域的一次系统梳理：模型、任务、训练、智能体、安全与应用都被串联成了一条完整、连贯的技术链路。

来自主题: AI技术研报

8239 点击 2025-12-06 10:54

人们用AI在做什么？答案藏在100万亿token背后

2025 年 12 月，硅谷风险投资机构 Andreessen Horowitz（简称 a16z）与 AI 推理服务平台 OpenRouter 联合发布了一份名为《State of AI》的研究报告。这份报告基于 OpenRouter 平台上超过 100 万亿 token 的真实用户交互数据，试图呈现过去一年间大语言模型在实际应用中的真实状态。

来自主题: AI技术研报

8480 点击 2025-12-06 10:22

Anthropic官宣PTC突破，中国开发者一年前就实现了

Anthropic发布了Programmatic Tool Calling（PTC）特性，让Claude通过代码编排工具执行，降低token消耗、减少延迟并提升准确性。

来自主题: AI技术研报

7675 点击 2025-12-05 14:48

Ilya刚预言完，世界首个原生多模态架构NEO就来了：视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构（Native VLM），名曰NEO。要知道，此前主流的多模态大模型，例如我们熟悉的GPT-4V、Claude 3.5等，它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报

8114 点击 2025-12-05 14:46

大模型被确诊「视觉文盲」！多校联合提出MILO，为它植入空间想象力

大模型总是无法理解空间，就像我们难以想象四维世界。

来自主题: AI技术研报

7662 点击 2025-12-05 10:07

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了

DeepSeek 一发布模型，总会引起业内的高度关注与广泛讨论，但也不可避免的暴露出一些小 Bug。

来自主题: AI技术研报

5840 点击 2025-12-05 10:05

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

Vision–Language–Action（VLA）策略正逐渐成为机器人迈向通用操作智能的重要技术路径：这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

来自主题: AI技术研报

8438 点击 2025-12-05 09:27

Code LLM全景综述，从LLM到Agent，全文长303页，北航阿里字节等12家机构联合撰写｜最新

这篇论文由北京航空航天大学、阿里巴巴、字节跳动、上海人工智能实验室等几十家顶尖机构联合撰写，全文长达303页，是对当前“代码大模型（Code LLMs）”领域最详尽的百科全书式指南。

来自主题: AI技术研报

10723 点击 2025-12-05 09:24

语义+R-Tree空间索引：Milvus如何帮外卖APP做3公里内美食推荐| Milvus Week

本文为Milvus Week系列第三篇，该系列旨在分享Milvus的创新与实践成果，以下是DAY3内容划重点： Milvus2.6中，Zilliz借助Geolocation Index for Milvus，首次将地理空间数据与向量检索融合，使 AI 可以在理解语义的同时，理解空间。

来自主题: AI技术研报

9856 点击 2025-12-05 09:22

首个英文原生「弱智吧」！逻辑谬误数据集与生成框架来了 | AAAI'26

最近研究发现，大模型在判断逻辑谬误时容易「想太多」，误报正常句子，但在确定有谬误后，其分类能力较强。研究人员构建了首个高质量英文逻辑谬误基准SMARTYPAT-BENCH，并开发了基于Prolog的逻辑谬误自动生成框架SMARTYPAT，为大模型逻辑能力评估提供新思路，可用于谬误识别、辩论教育等领域。

来自主题: AI技术研报

9083 点击 2025-12-05 09:19

从MiniMax到DeepSeek：为何头部大模型都在押注「交错思维」？

昨日，有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步推理、环境交互和工程化能力。

来自主题: AI技术研报

8848 点击 2025-12-04 16:25

无需训练的3D生成加速新思路：西湖大学提出Fast3Dcache

在AIGC的浪潮中，3D生成模型（如TRELLIS）正以惊人的速度进化，生成的模型越来越精细。然而，“慢”与计算量大依然是制约其大规模应用的最大痛点。复杂的去噪过程、庞大的计算量，让生成一个高质量3D资产往往需要漫长的等待。

来自主题: AI技术研报

6132 点击 2025-12-04 15:02

挑战ReAct！MetaGPT团队提出ReCode智能体新范式

想象你在准备早餐：你不会先写一份详细到「左手抓鸡蛋、右手拿碗、手腕旋转 45 度敲击蛋壳」这样的清单，也不会只有一个笼统的计划叫「做个早餐」，然后不知所措。

来自主题: AI技术研报

7292 点击 2025-12-04 15:01

DeepSeek V3.2爆火，Agentic性能暴涨40%解密

DeepSeek V3.2的Agentic能力大增，离不开这项关键机制：Interleaved Thinking（交错思维链）。Interleaved Thinking风靡开源社区背后，离不开另一家中国公司的推动。

来自主题: AI技术研报

7832 点击 2025-12-04 14:58

老外傻眼！明用英文提问，DeepSeek依然坚持中文思考

就在前天，DeepSeek 一口气上新了两个新模型，DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

来自主题: AI技术研报

7774 点击 2025-12-04 11:37

2027年，人类最后一次抉择！Anthropic发布内部深度调查《AI如何改变工作》

2027年将是人类命运的关键节点！Anthropic首席科学家Jared Kaplan预警，人类将在2027至2030年面临是否允许AI进行递归自我进化的终极抉择。Anthropic最新发布（12月3日）的内部深度调查《AI如何改变工作》，正在揭示这场宏大叙事下微观个体的命运——工程师的「空心化」和学徒制的崩溃。

来自主题: AI技术研报

8302 点击 2025-12-04 11:03

GPT-5-Thinking新训练方法公开：让AI学会忏悔

OpenAI搞了个新活：让ChatGPT自己“坦白从宽”。

来自主题: AI技术研报

8413 点击 2025-12-04 10:58