AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了

SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了

SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了

当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度,当 VR 玩家想伸手抓住对手 “空中定格” 的剑锋,当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机,把瞬间即逝的高速世界 “冻结” 成可供反复拆解、传送与交互的数字化 4D 时空,成为 3D 视觉领域的一个难题。

来自主题: AI技术研报
8193 点击    2025-12-15 14:50
24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

近日,24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型,它是一位拥有空间超能力的视觉语言小能手,不仅能从普通的平面图片中精准地重建出三维世界,还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报
5326 点击    2025-12-15 14:49
「美国贴吧」被 AI 水军攻陷:为了证明是人类,2400 万用户被迫像傻瓜一样说话

「美国贴吧」被 AI 水军攻陷:为了证明是人类,2400 万用户被迫像傻瓜一样说话

「美国贴吧」被 AI 水军攻陷:为了证明是人类,2400 万用户被迫像傻瓜一样说话

「这是一项革命性的工作」、「不是……而是……」、「首先……其次……」;在一篇文章里读到这些词,你是不是本能地开始觉得,有点不对劲了。

来自主题: AI技术研报
10094 点击    2025-12-15 12:39
暴涨3倍!18-34岁占比反降15%:这届中年人开始占领AI

暴涨3倍!18-34岁占比反降15%:这届中年人开始占领AI

暴涨3倍!18-34岁占比反降15%:这届中年人开始占领AI

如果说2023年是生成式AI的「出道年」,2024年是「炒作年」,那2025年,就是生成式AI真正走进普通人生活的「落地年」。

来自主题: AI技术研报
9173 点击    2025-12-15 12:14
6位前DeepMind老将打造「AI指挥官」,一半成本刷新SOTA

6位前DeepMind老将打造「AI指挥官」,一半成本刷新SOTA

6位前DeepMind老将打造「AI指挥官」,一半成本刷新SOTA

6位前DeepMind成员以元系统重塑大模型调用方式,该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首,而成本仅为此前最优方法的一半。

来自主题: AI技术研报
7666 点击    2025-12-15 11:31
给AI装上细胞之眼:新框架CHMR破解药物研发数据缺失难题

给AI装上细胞之眼:新框架CHMR破解药物研发数据缺失难题

给AI装上细胞之眼:新框架CHMR破解药物研发数据缺失难题

近日,中山大学博士生李孟燃和中国科学院香港创新研究院臧泽林博士及合作者打造出一种名为 CHMR 的 AI 系统,堪比一位拥有细胞之眼的 AI 化学家,能让药物研发变得更精准和更安全。

来自主题: AI技术研报
6242 点击    2025-12-15 10:43
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:

来自主题: AI技术研报
8370 点击    2025-12-15 09:58
AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言

AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言

AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言

多语言大模型(MLLM)在面对多语言任务时,往往面临一个选择难题:是用原来的语言直接回答,还是翻译成高资源语言去推理?

来自主题: AI技术研报
9490 点击    2025-12-15 09:53
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题

NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题

NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题

在深入技术细节之前,我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案:正如钟离在漫画中所言,面对海量视觉指令数据的选择任务,传统方法需要遍历全部数据才能进行筛选造成大量「磨损」(高昂计算成本)。同时在面对数据重要性和多样性问题时,传统方法往往顾此失彼。

来自主题: AI技术研报
6535 点击    2025-12-14 10:46
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

昨天,苹果一篇新论文在 arXiv 上公开然后又匆匆撤稿。原因不明。论文中,苹果揭示了他们开发的一个基于 TPU 的可扩展 RL 框架 RLAX。是的,你没有看错,不是 GPU,也不是苹果自家的 M 系列芯片,而是谷歌的 TPU!还不止如此,这篇论文的研究中还用到了亚马逊的云和中国的 Qwen 模型。

来自主题: AI技术研报
7679 点击    2025-12-13 11:08
港大开源ViMax火了,实现AI自编自导自演

港大开源ViMax火了,实现AI自编自导自演

港大开源ViMax火了,实现AI自编自导自演

想象一下,只需要一句话描述,AI 就能为你拍出一部完整的短剧?为了让这个想法变成现实,香港大学黄超教授团队开源了 ViMax 框架,并在 GitHub 获得 1.4k + 星标,专注于 Agentic Video Generation 的前沿探索。通过多智能体协作,ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化,把传统影视制作的每个环节都搬进了 AI 世界。

来自主题: AI技术研报
8143 点击    2025-12-13 11:06
多智能体一定比单智能体要好?Google最新研究:并非如此!

多智能体一定比单智能体要好?Google最新研究:并非如此!

多智能体一定比单智能体要好?Google最新研究:并非如此!

最近,来自Google Research、Google DeepMind和MIT的研究者们联合发表了一项重磅研究。结果显示:盲目增加智能体数量,在很多时候不仅没用,反而会让系统变笨、变慢、变贵。

来自主题: AI技术研报
6586 点击    2025-12-13 11:00
告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

扩散语言模型(Diffusion Language Models)以其独特的 “全局规划” 与并行解码能力广为人知,成为 LLM 领域的全新范式之一。然而在 Any-order 解码模式下,其通常面临

来自主题: AI技术研报
6912 点击    2025-12-13 10:59
a16z 提出 AI 产品的「水晶鞋效应」:第一批用户反而是最忠诚的

a16z 提出 AI 产品的「水晶鞋效应」:第一批用户反而是最忠诚的

a16z 提出 AI 产品的「水晶鞋效应」:第一批用户反而是最忠诚的

前几天,AI 推理服务供应商 OpenRouter 发布了一份报告《State of AI》,基于平台上 60 多家提供商的 300 多个模型,100 万亿个 token 的交互数据,对 LLM 的实际应用情况进行了分析。报告中,提到了一个「灰姑娘水晶鞋效应」,特别有意思。研究者在分析用户留用数据时发现一个现象:AI 模型发布第一个月进来的用户,往往比后来进来的用户留存率更高。

来自主题: AI技术研报
7143 点击    2025-12-12 16:15
NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

新加坡国立大学 LV Lab(颜水成团队) 联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架:首次从频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的「低频到高频」演变规律,并据此设计了动态路由机制。

来自主题: AI技术研报
6602 点击    2025-12-12 15:34
谷歌发布智能体Scaling Law:180组实验打破传统炼金术

谷歌发布智能体Scaling Law:180组实验打破传统炼金术

谷歌发布智能体Scaling Law:180组实验打破传统炼金术

智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。

来自主题: AI技术研报
6083 点击    2025-12-12 10:27
GPT在模仿人类?Nature发现:大脑才是最早的Transformer!

GPT在模仿人类?Nature发现:大脑才是最早的Transformer!

GPT在模仿人类?Nature发现:大脑才是最早的Transformer!

我们以为语言是语法、规则、结构。但最新的Nature研究却撕开了这层幻觉。GPT的层级结构与竟与人大脑里的「时间印记」一模一样。当浅层、中层、深层在脑中依次点亮,我们第一次看见:理解语言,也许从来不是解析,而是预测。

来自主题: AI技术研报
8922 点击    2025-12-12 09:39
效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

实现通用机器人的类人灵巧操作能力,是机器人学领域长期以来的核心挑战之一。近年来,视觉 - 语言 - 动作 (Vision-Language-Action,VLA) 模型在机器人技能学习方面展现出显著潜力,但其发展受制于一个根本性瓶颈:高质量操作数据的获取。

来自主题: AI技术研报
8584 点击    2025-12-12 09:38
纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑战:

来自主题: AI技术研报
7529 点击    2025-12-12 09:37
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。

来自主题: AI技术研报
9757 点击    2025-12-12 09:36
别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。

来自主题: AI技术研报
8665 点击    2025-12-12 08:58
大模型的第一性原理:(一)统计物理篇

大模型的第一性原理:(一)统计物理篇

大模型的第一性原理:(一)统计物理篇

白铂 博士,华为 2012 实验室理论研究部主任 信息论首席科学家

来自主题: AI技术研报
10249 点击    2025-12-12 08:57
你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

随着基础模型的日益成熟,AI领域的研发重心正从“训练更强的模型”转移到“构建更强的系统”。在这个新阶段,适配(Adaptation) 成为了连接通用智能与垂直应用的关键纽带。

来自主题: AI技术研报
8193 点击    2025-12-12 08:53
被拒≠失败!这些高影响力论文都被顶会拒收过

被拒≠失败!这些高影响力论文都被顶会拒收过

被拒≠失败!这些高影响力论文都被顶会拒收过

近日,Waymo 发布了一篇深度博客,详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。

来自主题: AI技术研报
7223 点击    2025-12-11 16:03
阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

2025 年 12 月,由 阿里巴巴 联合 中国科学技术大学、浙江大学等机构共同研发的实时虚拟人项目 LiveAvatar 正式对外开源。该项目聚焦长期困扰虚拟人行业的两大技术瓶颈——“实时响应能力”与“长时稳定生成能力”,首次在同一系统中实现了二者的工程级统一。

来自主题: AI技术研报
8519 点击    2025-12-11 15:07
MIT最新发现:这十年,算法进步被高估了

MIT最新发现:这十年,算法进步被高估了

MIT最新发现:这十年,算法进步被高估了

在过去十年中,AI 的进步主要由两股紧密相关的力量推动:迅速增长的计算预算,以及算法创新。

来自主题: AI技术研报
9775 点击    2025-12-11 14:36
向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

本文为Milvus Week系列第7篇,该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。

来自主题: AI技术研报
9303 点击    2025-12-11 14:35