AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念

最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念

最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念

在上一篇文章中,我们系统梳理了AI Agent 记忆机制的全景综述AI Agent最新「Memory」综述 |多所顶尖机构联合发布。今天我将带您了解一项最近很火的Agent记忆项目「HINDSIGHT」

来自主题: AI技术研报
7284 点击    2025-12-19 10:28
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难以兼顾高层规划与精细操控。

来自主题: AI技术研报
8865 点击    2025-12-19 10:23
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成果稿件,代表着学术与工业界的最高研究水平与最前沿技术趋势。

来自主题: AI技术研报
6559 点击    2025-12-19 09:40
具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法

科技赛道从不缺“造梦者”,但能精准击中行业痛点的“破局者”往往寥寥。

来自主题: AI技术研报
6528 点击    2025-12-18 16:24
挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力

挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力

挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力

如何让针对静态场景训练的3D基础模型(3D Foundation Models),在不增加训练成本的前提下,具备处理动态4D场景的能力?

来自主题: AI技术研报
9920 点击    2025-12-18 09:48
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。

来自主题: AI技术研报
5890 点击    2025-12-18 09:46
大模型的进化方向:Words to Worlds | 对话商汤林达华

大模型的进化方向:Words to Worlds | 对话商汤林达华

大模型的进化方向:Words to Worlds | 对话商汤林达华

李飞飞团队最新的空间智能模型Cambrian-S,首次被一个国产开源AI超越了。

来自主题: AI技术研报
5981 点击    2025-12-18 09:15
刷榜自动驾驶语义场景补全!北大新作:高维度、高密度 | AAAI'26

刷榜自动驾驶语义场景补全!北大新作:高维度、高密度 | AAAI'26

刷榜自动驾驶语义场景补全!北大新作:高维度、高密度 | AAAI'26

北京大学团队提出了一种新的视觉语义场景补全方法HD²-SSC,用于从多视角图像重建三维语义场景。该方法通过高维度语义解耦和高密度占用优化,解决了现有技术中二维输入与三维输出之间的维度差异,以及人工标注与真实场景密度差异的问题,从而实现更准确的语义场景补全。

来自主题: AI技术研报
5874 点击    2025-12-18 09:14
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

在个性化视觉生成的实际应用中,通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果,通常需对大模型进行针对性的自适应微调,但当前以 LoRA 为代表的主流方法,仍受限于定制化数据收集与冗长的优化流程,耗时耗力,难以在真实场景中广泛应用。

来自主题: AI技术研报
5613 点击    2025-12-18 09:12
60秒极限挑战!中国GPU独角兽杀出重围,斩获图形顶会大奖

60秒极限挑战!中国GPU独角兽杀出重围,斩获图形顶会大奖

60秒极限挑战!中国GPU独角兽杀出重围,斩获图形顶会大奖

他们不光能造GPU,还能写出全球顶级的算法!摩尔线程这次开源给国产具身智能递了一把「神兵利器」。

来自主题: AI技术研报
9816 点击    2025-12-18 09:09
VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力?

来自主题: AI技术研报
6622 点击    2025-12-17 14:38
高保真、多控制集成于「统一画布」,组合式图像生成新范式!

高保真、多控制集成于「统一画布」,组合式图像生成新范式!

高保真、多控制集成于「统一画布」,组合式图像生成新范式!

Canvas-to-Image 是一种新型图像生成框架,将多种控制方式(如身份、姿态、空间布局)整合到一个统一画布中,用户可通过直观操作生成高保真、多控制的图像。它简化了创作流程,让用户在单一界面完成复杂创作,为AI创作工具提供了新范式。

来自主题: AI技术研报
6227 点击    2025-12-17 10:27
56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能

56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能

56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能

生成式模型正在成为机器人和具身智能领域的重要范式,它能够从高维视觉观测中直接生成复杂、灵活的动作策略,在操作、抓取等任务中表现亮眼。但在真实系统中,这类方法仍面临两大「硬伤」:一是训练极度依赖大规模演示数据,二是推理阶段需要大量迭代,动作生成太慢,难以实时控制。

来自主题: AI技术研报
5246 点击    2025-12-17 09:55
中国科学家用AI造出不怕开水的蛋白质,无惧150℃高温,比肌肉强韧4倍

中国科学家用AI造出不怕开水的蛋白质,无惧150℃高温,比肌肉强韧4倍

中国科学家用AI造出不怕开水的蛋白质,无惧150℃高温,比肌肉强韧4倍

近日,南京大学教授郑鹏和团队造出一种全新的超级蛋白质,不仅比人体肌肉组织里的天然蛋白质坚韧 4 倍以上,而且还能在开水里安然无恙,甚至能够承受 150℃ 的高温,这打破了人们对于蛋白质怕热的固有印象。蛋白质的机械强度被人工设计提升到纳牛顿的级别,堪比自然界已知的最坚韧的一些分子相互作用。

来自主题: AI技术研报
8494 点击    2025-12-17 09:23
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M

作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M,共包含 3M 样本对,分为空间对齐和非空间对齐 2 大类别共 8 小类别。

来自主题: AI技术研报
6678 点击    2025-12-17 09:22
AI Agent最新「Memory」综述 |多所顶尖机构联合发布

AI Agent最新「Memory」综述 |多所顶尖机构联合发布

AI Agent最新「Memory」综述 |多所顶尖机构联合发布

就在昨天,新加坡国立大学、中国人民大学、复旦大学等多所顶尖机构联合发布了一篇AI Agent 记忆(Memory)综述。

来自主题: AI技术研报
7275 点击    2025-12-17 09:21
临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统

临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统

临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统

通用大模型(LLM)的狂飙突进,终于在医疗垂直领域的「最后一公里」撞上了硬墙。虽然 ChatGPT 在 USMLE(美国执业医师资格考试)中表现优异,但在面对需要「火眼金睛」和「毫厘必争」的心脏手术台上,通用大模型的表现究竟如何?

来自主题: AI技术研报
7578 点击    2025-12-16 17:23
英伟达开源发布最新AI模型!引入突破性专家混合架构,推理性能超越Qwen3和GPT,百万token上下文,模型数据集全开源!

英伟达开源发布最新AI模型!引入突破性专家混合架构,推理性能超越Qwen3和GPT,百万token上下文,模型数据集全开源!

英伟达开源发布最新AI模型!引入突破性专家混合架构,推理性能超越Qwen3和GPT,百万token上下文,模型数据集全开源!

就在刚刚,英伟达正式开源发布了其新一代AI模型:NVIDIA Nemotron 3。Nemotron 3 系列由三种型号组成:Nano、Super 和 Ultra。官方介绍其具备强大的智能体、推理和对话能力。

来自主题: AI技术研报
8399 点击    2025-12-16 17:21
Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了

Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了

Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了

当前,AI 领域的研究者与开发者在关注 OpenAI、Google 等领先机构最新进展的同时,也将目光投向了由前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab。

来自主题: AI技术研报
5243 点击    2025-12-16 16:31
让扩散模型「可解释」不再降质,开启图片编辑新思路

让扩散模型「可解释」不再降质,开启图片编辑新思路

让扩散模型「可解释」不再降质,开启图片编辑新思路

过去三年,扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限,让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报
7066 点击    2025-12-16 16:27
医疗AI迎来大考!南洋理工发布首个LLM电子病历处理评测 | AAAI'26

医疗AI迎来大考!南洋理工发布首个LLM电子病历处理评测 | AAAI'26

医疗AI迎来大考!南洋理工发布首个LLM电子病历处理评测 | AAAI'26

南洋理工大学研究人员构建了EHRStruct基准,用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务,包含2200个样本,按临床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型,数据驱动任务表现更强,输入格式和微调方式对性能有显著影响。

来自主题: AI技术研报
9546 点击    2025-12-16 16:27