AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

近日,腾讯优图实验室联合华东理工大学、北京大学等研究团队在A生成图像检测(AI-Generated Image Detection)泛化问题上展开研究,提出Dual Data Alignment(双重数据对齐,DDA)方法,从数据层面系统性抑制“偏差特征”,显著提升检测器在跨模型、跨数据域场景下的泛化能力。

来自主题: AI技术研报
6164 点击    2025-11-30 15:10
空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间

空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间

空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间

本文第一作者为刘禹宏,上海交通大学人工智能专业本科四年级学生,相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航,在该研究工作完成期间,均担任上海人工智能实验室研究员。

来自主题: AI技术研报
5513 点击    2025-11-30 15:05
2026 年,企业全面拥抱语音 AI 智能体

2026 年,企业全面拥抱语音 AI 智能体

2026 年,企业全面拥抱语音 AI 智能体

a16z 指出:“模型开发的进展正在简化整个基础设施栈,使得语音智能体具备更低延迟和更高性能。这一提升主要出现在过去六个月内,得益于新一代对话模型的出现。”基于这些趋势,Deepgram 与 Opus Research 合作开展的《2025 语音 AI 状况调查报告》,基于 400 位商业领袖的洞察,涵盖十多个行业,分析了语音 AI 的应用现状与关键特性。

来自主题: AI技术研报
8384 点击    2025-11-30 11:52
CB Insights 2025 未来科技新星:45 家高潜力AI初创公司名单与技术趋势解读|Jinqiu Select

CB Insights 2025 未来科技新星:45 家高潜力AI初创公司名单与技术趋势解读|Jinqiu Select

CB Insights 2025 未来科技新星:45 家高潜力AI初创公司名单与技术趋势解读|Jinqiu Select

CB Insights 发布的《2025 Future Tech Hotshots:Scouting Reports》报告,结合生成式 AI 分析与专有 Mosaic 评分体系,从全球海量初创企业中遴选出 45 家最具潜力的科技公司。

来自主题: AI技术研报
7878 点击    2025-11-30 11:43
不炫技的 AI,涨得更快,17 款 AI App接住了人间烟火|2025年10月AI百强榜

不炫技的 AI,涨得更快,17 款 AI App接住了人间烟火|2025年10月AI百强榜

不炫技的 AI,涨得更快,17 款 AI App接住了人间烟火|2025年10月AI百强榜

但当我们把视线从焦点模型上,挪到手机里AI应用真实数据上,就会发现一幅不同的画面。可以看到在非凡产研 10 月 AI App 增速榜上,跑得最快的那 17 个,并不是万事皆可聊的通用助手,而是一群看上去有点普通、甚至有点土气的小应用,其中Gauth、Starry、Knowunity、AI Baby Generator已经连续两个月上榜了。

来自主题: AI技术研报
7143 点击    2025-11-30 11:39
世界模型:机器能否理解现实?

世界模型:机器能否理解现实?

世界模型:机器能否理解现实?

人工智能研究的最新目标,尤其是在追求“通用人工智能”(AGI)的实验室中,是一个被称为“世界模型”(world model)的概念:这是一种AI内部携带的环境表征,就像一个计算型的雪球玻璃球。AI系统可以借助这个简化的内部模型,在真正执行任务之前,先对预测和决策进行评估。

来自主题: AI技术研报
7570 点击    2025-11-30 11:18
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

大模型推理的爆发,实际源于 scaling 范式的转变:从 train-time scaling 到 test-time scaling(TTS),即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法:通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗?

来自主题: AI技术研报
7626 点击    2025-11-30 09:30
国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

智东西11月28日报道,刚刚,快手开源其新一代旗舰多模态大模型Keye-VL-671B-A37B。该模型基于DeepSeek-V3-Terminus打造,拥有6710亿个参数,在保持基础模型通用能力的前提下,对视觉感知、跨模态对齐与复杂推理链路进行了升级,实现了较强的多模态理解和复杂推理能力。

来自主题: AI技术研报
8336 点击    2025-11-29 20:12
17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读

17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读

17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读

而今天,来自 UIUC、华盛顿大学等机构的一群研究人员,通过一篇重磅论文《推理的认知基础及其在大型语言模型中的体现》,为这个“认知鸿沟”画出了一张精确的微观解剖图。

来自主题: AI技术研报
7538 点击    2025-11-29 20:10
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

REG 是一种简单而有效的方法,仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型(如 DINOv2)的 class token 与 latent 在空间维度拼接后共同加噪训练,从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上,

来自主题: AI技术研报
6440 点击    2025-11-29 13:46
混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型!这是一款商业级、开源且轻量(1B参数)的OCR专用视觉语言模型,模型采用原生ViT和轻量LLM结合的架构。目前,该模型在抱抱脸(Hugging Face)趋势榜排名前四,GitHub标星超过700,并在Day 0被vllm官方团队接入。

来自主题: AI技术研报
7230 点击    2025-11-29 13:43
RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一

RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一

RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一

RAG效果不及预期,试试这10个上下文处理优化技巧。对大部分开发者来说,搭一个RAG或者agent不难,怎么把它优化成生产可用的状态最难。在这个过程中,检索效率、准确性、成本、响应速度,都是重点关注问题。

来自主题: AI技术研报
7514 点击    2025-11-29 10:03
北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

具身智能的「ChatGPT时刻」还没到,机器人的「幻觉」却先来了?在需要几十步操作的长序列任务中,现有的VLA模型经常「假装在干活」,误以为任务完成。针对这一痛点,北京大学团队提出自进化VLA框架EvoVLA。该模型利用Gemini生成「硬负样本」进行对比学习,配合几何探索与长程记忆,在复杂任务基准Discoverse-L上将成功率提升了10.2%,并将幻觉率从38.5%大幅降至14.8%。

来自主题: AI技术研报
7464 点击    2025-11-29 09:58
为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

人工智能在过去的十年中,以惊人的速度革新了信息处理和内容生成的方式。然而,无论是大语言模型(LLM)本体,还是基于检索增强生成(RAG)的系统,在实际应用中都暴露出了一个深层的局限性:缺乏跨越时间的、可演化的、个性化的“记忆”。它们擅长瞬时推理,却难以实现持续积累经验、反思历史、乃至真正像人一样成长的目标。

来自主题: AI技术研报
7466 点击    2025-11-29 09:56
谁将为这场史上最昂贵的AI军备竞赛买单?|大公司

谁将为这场史上最昂贵的AI军备竞赛买单?|大公司

谁将为这场史上最昂贵的AI军备竞赛买单?|大公司

过去数周,英伟达股价经历了一轮高位回调与震荡。目前市值相较于一个月前的高点已下降15.4%。虽然一周前最新季度财报发布后,公司超预期的业绩表现一定程度上稳定了市场信心,但隔天股价的下跌反映着情绪底色依然是消极的。

来自主题: AI技术研报
7214 点击    2025-11-28 13:54
生成式AI赋能需求工程:一场正在发生的变革

生成式AI赋能需求工程:一场正在发生的变革

生成式AI赋能需求工程:一场正在发生的变革

在软件开发领域,需求工程(Requirements Engineering, RE)一直是项目成功的关键环节。然而,传统 RE 方法面临着效率低下、需求变更频繁等挑战。根据 Standish Group 的报告,仅有 31% 的软件项目能在预算和时间内完成,而需求相关问题导致的项目失败率高达 37%。

来自主题: AI技术研报
9014 点击    2025-11-28 10:39
RAG效果要提升,先搞定高质量Context Pruning

RAG效果要提升,先搞定高质量Context Pruning

RAG效果要提升,先搞定高质量Context Pruning

Context Pruning如何结合rerank,优化RAG上下文?

来自主题: AI技术研报
8491 点击    2025-11-28 10:05
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报
7935 点击    2025-11-28 09:28
首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产,使得对个别部件进行精细调整几乎成为不可能。

来自主题: AI技术研报
9932 点击    2025-11-27 15:01
编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

当元宇宙数字人急需「群舞技能」,音乐驱动生成技术却遭遇瓶颈——舞者碰撞、动作僵硬、长序列崩坏。为解决这些难题,南理工、清华、南大联合研发端到端模型TCDiff++,突破多人生成技术壁垒,实现高质量、长时序的群体舞蹈自动生成。

来自主题: AI技术研报
10019 点击    2025-11-27 15:00
通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

脑机接口(Brain-Computer Interface, BCI)被视为连接人类智能与人工智能的终极界面。要真正实现这一愿景,核心在于高精度的脑信号解码,即让通用 AI 模型能够真正「读懂」复杂多变的脑活动。

来自主题: AI技术研报
9349 点击    2025-11-27 14:59
ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

智能体终于拥有了可以海量复制的“实战演练场”。阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。

来自主题: AI技术研报
7782 点击    2025-11-27 10:57
谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

前些天,一项「AI 传心术」的研究在技术圈炸开了锅:机器不用说话,直接抛过去一堆 Cache 就能交流。让人们直观感受到了「去语言化」的高效,也让机器之心那条相关推文狂揽 85 万浏览量。参阅报道《用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出 Cache-to-Cache 模型通信新范式》。

来自主题: AI技术研报
7403 点击    2025-11-27 10:11