AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型(OmniLLMs)在跨模态对齐和细粒度理解上的痛点,浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent,通过「思考 - 行动 - 观察 - 反思」闭环,实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报
6353 点击    2026-01-09 10:54
从过拟合到通用!ViMoGen开启3D人体动作生成新纪元

从过拟合到通用!ViMoGen开启3D人体动作生成新纪元

从过拟合到通用!ViMoGen开启3D人体动作生成新纪元

随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。

来自主题: AI技术研报
8095 点击    2026-01-08 16:13
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知

深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知

深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知

尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报
5736 点击    2026-01-08 15:23
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

来自主题: AI技术研报
6392 点击    2026-01-08 15:20
清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

近日,清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”,并给它们起了一个名字 H-神经元(幻觉神经元)。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。

来自主题: AI技术研报
7727 点击    2026-01-08 09:25
1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

当大模型竞争转向后训练,继续为闲置显卡烧钱无异于「慢性自杀」。如今,按Token计费的Serverless模式,彻底终结了算力租赁的暴利时代,让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报
7251 点击    2026-01-07 18:35
prompt比拖拉拽更适合新手做复杂agent!LangSmith+Milvus教程

prompt比拖拉拽更适合新手做复杂agent!LangSmith+Milvus教程

prompt比拖拉拽更适合新手做复杂agent!LangSmith+Milvus教程

过去一段时间,我们介绍了很多小白入门级的agent框架,也介绍了包括langchain在内的很多专业级agent搭建框架。

来自主题: AI技术研报
8258 点击    2026-01-07 17:23