AI资讯新闻榜单内容搜索-MLA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MLA
超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26

超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26

超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26

MLRA通过拆分KV缓存为四个并行分支,显著降低显存占用并实现4路张量并行。推理速度比MLA最高快2.8倍,支持百万级上下文,且模型质量更优。无需牺牲性能,即可高效扩展长文本处理能力。

来自主题: AI技术研报
9925 点击    2026-03-19 15:25
想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑

MMLab@NTU联合中山大学的最新研究,给出了一份从入门到精通的终极“菜谱”——VLANeXt。这项研究没有简单提出一个新模型了事,而是系统性地从12个关键维度,深度剖析了VLA的设计空间。从基础组件到感知要素,再到动作建模的额外视角,每一步都有扎实的实验支撑。

来自主题: AI技术研报
8307 点击    2026-03-03 10:44
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 “频率谱” 的统一视角,把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报
10372 点击    2026-01-15 09:20
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报
7627 点击    2025-11-08 11:00
抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。

来自主题: AI技术研报
9467 点击    2025-11-04 10:42
RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

最近,上海交通大学 ScaleLab 与香港大学 MMLab@HKU 领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平台在 CVPR 上举办的双臂协作竞赛 Technical Report。

来自主题: AI技术研报
8649 点击    2025-07-08 11:18
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报
8447 点击    2025-07-05 13:02
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型(MLLMs)中,CoT 同样展现出了巨大潜力。

来自主题: AI技术研报
10174 点击    2025-06-17 10:21