AI资讯新闻榜单内容搜索-AAAI

AAAI 2026 Oral｜LENS：基于统一强化推理的分割大模型

文本提示图像分割（Text-prompted image segmentation）是实现精细化视觉理解的关键技术，在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令，在复杂的视觉场景中定位并分割出任意目标。

来自主题: AI技术研报

9048 点击 2025-12-29 14:06

最鲁棒的MLLM！港科大开源「退化感知推理新范式」 | AAAI'26

多模态大语言模型（MLLMs）已成为AI视觉理解的核心引擎，但其在真实世界视觉退化（模糊、噪声、遮挡等）下的性能崩溃，始终是制约产业落地的致命瓶颈。

来自主题: AI技术研报

8096 点击 2025-12-25 09:44

刷榜自动驾驶语义场景补全！北大新作：高维度、高密度 | AAAI'26

北京大学团队提出了一种新的视觉语义场景补全方法HD²-SSC，用于从多视角图像重建三维语义场景。该方法通过高维度语义解耦和高密度占用优化，解决了现有技术中二维输入与三维输出之间的维度差异，以及人工标注与真实场景密度差异的问题，从而实现更准确的语义场景补全。

来自主题: AI技术研报

6011 点击 2025-12-18 09:14

医疗AI迎来大考！南洋理工发布首个LLM电子病历处理评测 | AAAI'26

南洋理工大学研究人员构建了EHRStruct基准，用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务，包含2200个样本，按临床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型，数据驱动任务表现更强，输入格式和微调方式对性能有显著影响。

来自主题: AI技术研报

9681 点击 2025-12-16 16:27

AAAI 2026｜视频大语言模型到底可不可信？23款主流模型全面测评来了

近年来，视频大语言模型在理解动态视觉信息方面展现出强大能力，成为处理真实世界多模态数据的重要基础模型。然而，它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

来自主题: AI技术研报

5424 点击 2025-12-16 09:19

AAAI 2026 | 革新电影配音工业流程：AI首次学会「导演-演员」配音协作模式

你是否也觉得，AI 配音的语调总是差了那么点 “人情味”？它能把台词念得字正腔圆，口型分秒不差，但角色的喜怒哀乐却总是难以触及灵魂深处。

来自主题: AI技术研报

9843 点击 2025-12-15 16:22

AAAI 2026 Oral | 拒绝「一刀切」！AdaMCoT：让大模型学会「看题下菜碟」，动态选择最佳思考语言

多语言大模型（MLLM）在面对多语言任务时，往往面临一个选择难题：是用原来的语言直接回答，还是翻译成高资源语言去推理？

来自主题: AI技术研报

9542 点击 2025-12-15 09:53

深大团队让机器人听懂指令精准导航！成功率可达72.5%，推理效率提升40%|AAAI2026

深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构，提出视觉-语言导航（VLN）新框架——UNeMo。让机器人听懂指令，精准导航再升级！

来自主题: AI技术研报

6321 点击 2025-12-10 14:34

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

8371 点击 2025-12-08 14:13

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」，过程感知视频理解如何找到「状态」锚点？

在具身智能与视频理解飞速发展的今天，如何让 AI 真正 “看懂” 复杂的操作步骤？北京航空航天大学陆峰教授团队联合东京大学，提出视频理解新框架。该工作引入了 “状态（State）” 作为视觉锚点，解决了抽象文本指令与具象视频之间的对齐难题，已被人工智能顶级会议 AAAI 2026 接收。

来自主题: AI资讯

7200 点击 2025-12-06 11:13