AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣

昨天,苹果一篇新论文在 arXiv 上公开然后又匆匆撤稿。原因不明。论文中,苹果揭示了他们开发的一个基于 TPU 的可扩展 RL 框架 RLAX。是的,你没有看错,不是 GPU,也不是苹果自家的 M 系列芯片,而是谷歌的 TPU!还不止如此,这篇论文的研究中还用到了亚马逊的云和中国的 Qwen 模型。

来自主题: AI技术研报
7476 点击    2025-12-13 11:08
港大开源ViMax火了,实现AI自编自导自演

港大开源ViMax火了,实现AI自编自导自演

港大开源ViMax火了,实现AI自编自导自演

想象一下,只需要一句话描述,AI 就能为你拍出一部完整的短剧?为了让这个想法变成现实,香港大学黄超教授团队开源了 ViMax 框架,并在 GitHub 获得 1.4k + 星标,专注于 Agentic Video Generation 的前沿探索。通过多智能体协作,ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化,把传统影视制作的每个环节都搬进了 AI 世界。

来自主题: AI技术研报
7910 点击    2025-12-13 11:06
多智能体一定比单智能体要好?Google最新研究:并非如此!

多智能体一定比单智能体要好?Google最新研究:并非如此!

多智能体一定比单智能体要好?Google最新研究:并非如此!

最近,来自Google Research、Google DeepMind和MIT的研究者们联合发表了一项重磅研究。结果显示:盲目增加智能体数量,在很多时候不仅没用,反而会让系统变笨、变慢、变贵。

来自主题: AI技术研报
6341 点击    2025-12-13 11:00
告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

扩散语言模型(Diffusion Language Models)以其独特的 “全局规划” 与并行解码能力广为人知,成为 LLM 领域的全新范式之一。然而在 Any-order 解码模式下,其通常面临

来自主题: AI技术研报
6705 点击    2025-12-13 10:59
a16z 提出 AI 产品的「水晶鞋效应」:第一批用户反而是最忠诚的

a16z 提出 AI 产品的「水晶鞋效应」:第一批用户反而是最忠诚的

a16z 提出 AI 产品的「水晶鞋效应」:第一批用户反而是最忠诚的

前几天,AI 推理服务供应商 OpenRouter 发布了一份报告《State of AI》,基于平台上 60 多家提供商的 300 多个模型,100 万亿个 token 的交互数据,对 LLM 的实际应用情况进行了分析。报告中,提到了一个「灰姑娘水晶鞋效应」,特别有意思。研究者在分析用户留用数据时发现一个现象:AI 模型发布第一个月进来的用户,往往比后来进来的用户留存率更高。

来自主题: AI技术研报
6985 点击    2025-12-12 16:15
NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

新加坡国立大学 LV Lab(颜水成团队) 联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架:首次从频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的「低频到高频」演变规律,并据此设计了动态路由机制。

来自主题: AI技术研报
6454 点击    2025-12-12 15:34
谷歌发布智能体Scaling Law:180组实验打破传统炼金术

谷歌发布智能体Scaling Law:180组实验打破传统炼金术

谷歌发布智能体Scaling Law:180组实验打破传统炼金术

智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。

来自主题: AI技术研报
5944 点击    2025-12-12 10:27
GPT在模仿人类?Nature发现:大脑才是最早的Transformer!

GPT在模仿人类?Nature发现:大脑才是最早的Transformer!

GPT在模仿人类?Nature发现:大脑才是最早的Transformer!

我们以为语言是语法、规则、结构。但最新的Nature研究却撕开了这层幻觉。GPT的层级结构与竟与人大脑里的「时间印记」一模一样。当浅层、中层、深层在脑中依次点亮,我们第一次看见:理解语言,也许从来不是解析,而是预测。

来自主题: AI技术研报
8824 点击    2025-12-12 09:39
效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

实现通用机器人的类人灵巧操作能力,是机器人学领域长期以来的核心挑战之一。近年来,视觉 - 语言 - 动作 (Vision-Language-Action,VLA) 模型在机器人技能学习方面展现出显著潜力,但其发展受制于一个根本性瓶颈:高质量操作数据的获取。

来自主题: AI技术研报
8444 点击    2025-12-12 09:38
纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑战:

来自主题: AI技术研报
7435 点击    2025-12-12 09:37
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。

来自主题: AI技术研报
9635 点击    2025-12-12 09:36
别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。

来自主题: AI技术研报
8547 点击    2025-12-12 08:58
大模型的第一性原理:(一)统计物理篇

大模型的第一性原理:(一)统计物理篇

大模型的第一性原理:(一)统计物理篇

白铂 博士,华为 2012 实验室理论研究部主任 信息论首席科学家

来自主题: AI技术研报
10100 点击    2025-12-12 08:57
你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

随着基础模型的日益成熟,AI领域的研发重心正从“训练更强的模型”转移到“构建更强的系统”。在这个新阶段,适配(Adaptation) 成为了连接通用智能与垂直应用的关键纽带。

来自主题: AI技术研报
8060 点击    2025-12-12 08:53
被拒≠失败!这些高影响力论文都被顶会拒收过

被拒≠失败!这些高影响力论文都被顶会拒收过

被拒≠失败!这些高影响力论文都被顶会拒收过

近日,Waymo 发布了一篇深度博客,详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。

来自主题: AI技术研报
7100 点击    2025-12-11 16:03
阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

2025 年 12 月,由 阿里巴巴 联合 中国科学技术大学、浙江大学等机构共同研发的实时虚拟人项目 LiveAvatar 正式对外开源。该项目聚焦长期困扰虚拟人行业的两大技术瓶颈——“实时响应能力”与“长时稳定生成能力”,首次在同一系统中实现了二者的工程级统一。

来自主题: AI技术研报
8345 点击    2025-12-11 15:07
MIT最新发现:这十年,算法进步被高估了

MIT最新发现:这十年,算法进步被高估了

MIT最新发现:这十年,算法进步被高估了

在过去十年中,AI 的进步主要由两股紧密相关的力量推动:迅速增长的计算预算,以及算法创新。

来自主题: AI技术研报
9672 点击    2025-12-11 14:36
向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

本文为Milvus Week系列第7篇,该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。

来自主题: AI技术研报
9172 点击    2025-12-11 14:35
微软发布首个测试时扩展大规模研究,还给出了终极指南

微软发布首个测试时扩展大规模研究,还给出了终极指南

微软发布首个测试时扩展大规模研究,还给出了终极指南

如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」。

来自主题: AI技术研报
6490 点击    2025-12-11 11:27
扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力,最近吸引了广泛的关注。例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持,挑战了传统自回归 LLMs 的统治地位。

来自主题: AI技术研报
5578 点击    2025-12-11 10:42
华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

近日,师从新晋诺贝尔化学奖得主奥马尔·亚吉(Omar M. Yaghi)、目前在美国加州大学伯克利分校读博的荣自超,带领一个跨国际的研究团队,打造出名为AIRES (algorithmic iterative reticular synthesis)的机器学习指导的高通量实验平台,

来自主题: AI技术研报
7456 点击    2025-12-11 10:09
沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

宾夕法尼亚大学沃顿商学院(The Wharton School)今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型(如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等),在极高难度的博士级基准测试(GPQA Diamond)上进行了数万次的严谨测试。

来自主题: AI技术研报
7847 点击    2025-12-10 16:11
00后大模型实习生「扒光」豆包手机!千字实测揭秘

00后大模型实习生「扒光」豆包手机!千字实测揭秘

00后大模型实习生「扒光」豆包手机!千字实测揭秘

一部AI手机,火爆全网。张嘴一句话,它在短短几秒内,就完成了跨APP自动比价下单、回微信、预约机票、规划旅行路线......正巧,我们在小红书上吃瓜的时候,意外发现了一篇十分有趣的帖子——《我没有逆向「豆包手机」,但我想说点什么》。

来自主题: AI技术研报
7416 点击    2025-12-10 14:38
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。让机器人听懂指令,精准导航再升级!

来自主题: AI技术研报
6140 点击    2025-12-10 14:34
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。

来自主题: AI技术研报
6045 点击    2025-12-10 14:33