
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。
让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。
作者介绍: 本文作者来自通义实验室 RAG 团队,致力于面向下一代 RAG 技术进行基础研究。该团队 WebWalker 工作近期也被 ACL 2025 main conference 录用。
能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。
为提升大模型“推理+搜索”能力,阿里通义实验室出手了。
信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:
强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。
最近阿里通义实验室应用视觉团队负责人薄列峰被曝离职,引起了一轮热议。而这已是继2月语音团队负责人鄢志杰、2024年8月大模型技术负责人周畅之后,阿里AI核心部门第三次失去关键人物了。
近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。
阿里通义实验室语音团队负责人鄢志杰已于近期离职,离职时间为2月15日,按照以前的P序列(原阿里内部职级体系)比照,其职级为P10。鄢志杰是智能语音领域的技术大牛。公开资料显示,2003年,鄢志杰大学本科毕业,升入中科大语音实验室,攻读博士学位,师从语音领域专家王仁华教授(科大讯飞创始人之一,曾任科大讯飞公司董事长)。
面向复杂PC任务的多模态智能体框架PC-Agent,来自阿里通义实验室。