AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

来自加州大学河滨分校(UC Riverside)、密歇根大学(University of Michigan)、威斯康星大学麦迪逊分校(University of Wisconsin–Madison)、德州农工大学(Texas A&M University)的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。

来自主题: AI技术研报
7328 点击    2025-07-10 10:39
如何教AI学会反思?

如何教AI学会反思?

如何教AI学会反思?

论文提出一种AI自我反思方法:通过反思错误原因、重试任务、奖励成功反思来优化训练。

来自主题: AI技术研报
8291 点击    2025-07-10 10:34
破解「个性化学习」长尾难题,巧用神经坍缩理论 | ICML 2025

破解「个性化学习」长尾难题,巧用神经坍缩理论 | ICML 2025

破解「个性化学习」长尾难题,巧用神经坍缩理论 | ICML 2025

NCAL是一种新的个性化学习方法,它通过优化文本嵌入的分布来解决教育数据中常见的长尾分布问题,从而提高模型对少数类别的处理能力。

来自主题: AI技术研报
8416 点击    2025-07-09 15:00
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

学好数理化,走遍天下都不怕! 这一点这在大语言模型身上也不例外。

来自主题: AI技术研报
7267 点击    2025-07-09 14:54
VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。

来自主题: AI技术研报
6176 点击    2025-07-09 11:57
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式

两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式

两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式

最少只用2张图,AI就能像人类一样理解3D空间了。ICCV 2025最新中稿的LangScene-X:以全新的生成式框架,仅用稀疏视图(最少只用2张图像)就能构建可泛化的3D语言嵌入场景,对比传统方法如NeRF,通常需要20个视角。

来自主题: AI技术研报
6468 点击    2025-07-09 11:08
突破全模态AI理解边界:HumanOmniV2引入上下文强化学习,赋能全模态模型“意图”推理新高度

突破全模态AI理解边界:HumanOmniV2引入上下文强化学习,赋能全模态模型“意图”推理新高度

突破全模态AI理解边界:HumanOmniV2引入上下文强化学习,赋能全模态模型“意图”推理新高度

在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL)在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报
7303 点击    2025-07-09 10:59
长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」

长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」

长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」

思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。 找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。

来自主题: AI技术研报
5643 点击    2025-07-09 10:51
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”!字节&NTU最新研究,优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报
6099 点击    2025-07-09 10:35
清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。

来自主题: AI技术研报
6236 点击    2025-07-08 12:08
Context Engineering不是造新词,IBM揭示LLM推理的认知秘密

Context Engineering不是造新词,IBM揭示LLM推理的认知秘密

Context Engineering不是造新词,IBM揭示LLM推理的认知秘密

当LangChain在6月23日发布那篇著名的Context Engineering博客时,IBM Research的研究者们早在10天前就已经用严格的学术实验证明了这套方法的有效性。

来自主题: AI技术研报
8242 点击    2025-07-08 12:07
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术

Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术

Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术

Meta挖走OpenAI大批员工后,又用OpenAI的技术搞出新突破。新架构名为2-Simplicial Transformer,重点是通过修改标准注意力,让Transformer能更高效地利用训练数据,以突破当前大模型发展的数据瓶颈。

来自主题: AI技术研报
6035 点击    2025-07-08 12:01
上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

上海交通大学研究团队提出了一种融合无人机物理建模与深度学习的端到端方法,该研究首次将可微分物理训练的策略成功部署到现实机器人中,实现了无人机集群自主导航,并在鲁棒性、机动性上大幅领先现有的方案。

来自主题: AI技术研报
6664 点击    2025-07-08 11:54
AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍

AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍

AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍

刷到1分钟AI短视频别只顾着点赞,背后的算力成本让人惊叹。MIT和英伟达等提出的径向注意力技术让长视频生成成本暴降4.4倍,速度飙升3.7倍,AI视频的未来已来!

来自主题: AI技术研报
6617 点击    2025-07-08 11:40
RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

最近,上海交通大学 ScaleLab 与香港大学 MMLab@HKU 领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平台在 CVPR 上举办的双臂协作竞赛 Technical Report。

来自主题: AI技术研报
6198 点击    2025-07-08 11:18
为什么 DeepSeek 大规模部署很便宜,本地很贵

为什么 DeepSeek 大规模部署很便宜,本地很贵

为什么 DeepSeek 大规模部署很便宜,本地很贵

为什么 DeepSeek-V3 据说在大规模服务时快速且便宜,但本地运行时却太慢且昂贵?为什么有些 AI 模型响应很慢,但一旦开始运行就变得很快?

来自主题: AI技术研报
7341 点击    2025-07-08 11:14
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

在互联网信息检索任务中,即使是很强的LLM,有时也会陷入“信息迷雾”之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。

来自主题: AI技术研报
6136 点击    2025-07-08 11:05
伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。

来自主题: AI技术研报
6991 点击    2025-07-07 15:46
用子模优化法为DeepResearch生成多样性查询

用子模优化法为DeepResearch生成多样性查询

用子模优化法为DeepResearch生成多样性查询

在开发DeepResearch时,生成多样化的查询 (query) 是一个关键细节。我们在开发时会在至少两处遇到这个问题。

来自主题: AI技术研报
8204 点击    2025-07-07 15:25
重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%

重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%

重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%

大模型记忆管理和优化框架是当前各大厂商争相优化的热点方向,MemOS 相比现有 OpenAI 的全局记忆在大模型记忆评测集上呈现出显著的提升,平均准确性提升超过 38.97%,Tokens 的开销进一步降低 60.95%,一举登顶记忆管理的 SOTA 框架,特别是在考验框架时序建模与检索能力的时序推理任务上,提升比例更是达到了 159%,相当震撼!

来自主题: AI技术研报
7181 点击    2025-07-07 14:44
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

机器人走出实验室、进入真实世界真正可用,远比想象中更复杂。现实环境常常杂乱无序、物体种类繁多、灵活多变,远不像实验室那样干净、单一、可控。

来自主题: AI技术研报
9069 点击    2025-07-07 11:46
AI智能体开发指南(2025版)

AI智能体开发指南(2025版)

AI智能体开发指南(2025版)

一位肉身行为体对人工智能体的独家指南

来自主题: AI技术研报
6732 点击    2025-07-07 11:35