
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。
让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。
阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。
TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术,这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大功能,为用户带来逼真的虚拟交互体验。
刚刚,浙江省肿瘤医院联合阿里巴巴达摩院召开发布会,发布全球首个胃癌影像筛查AI模型DAMO GRAPE,首次利用平扫CT影像识别早期胃癌病灶,并联合全国20个中心近10万人的大规模临床研究中大幅提升胃癌检出率。相关成果登上国际顶级期刊《自然·医学》(Nature Medicine)。
本文第一作者为前阿里巴巴达摩院高级技术专家,现一年级博士研究生满远斌,研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师,UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队,主要研究方向为多模态空间智能系统,致力于通过软件和系统的联合优化设计实现空间人工智能的落地。
今年3月,阿里巴巴旗下淘天有限公司发文,正式启动2026届春季实习生全球招聘活动。该次招聘开放七大职类,提供超50个不同岗位。此前,阿里巴巴集团CEO吴泳铭曾宣布,未来三年将投入超过3800亿元用于建设云和AI硬件基础设施。2月27日,阿里巴巴启动2026届春季实习生招聘,开放的3000多个岗位中,AI相关岗位占到了五成。
RTP-LLM 是阿里巴巴大模型预测团队开发的高性能 LLM 推理加速引擎。它在阿里巴巴集团内广泛应用,支撑着淘宝、天猫、高德、饿了么等核心业务部门的大模型推理需求。在 RTP-LLM 上,我们实现了一个通用的投机采样框架,支持多种投机采样方法,能够帮助业务有效降低推理延迟以及提升吞吐。
阿里巴巴可能看清楚了,自我迭代,不仅是靠用户价值和创业精神的回归,更需要的,是一场生产力革命。
阿里巴巴的云业务部门正升级其海外可用的人工智能工具套件,以吸引更多全球客户。
本周一,阿里巴巴集团CEO吴泳铭抛出了炸弹——未来三年将投入超3800亿元建设云和AI硬件基础设施。这个金额,不仅创下了中国民营企业在该领域有史以来最大规模的投资纪录,更像一枚投入湖面的巨石,在中国科技产业激起层层涟漪。