AI资讯新闻榜单内容搜索-MMLab

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: MMLab

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University（MMLab）与 SenseTime Research，提出 Prism Hypothesis（棱镜假说）与 Unified Autoencoding（UAE），尝试用 “频率谱” 的统一视角，把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报

9791 点击 2026-01-15 09:20

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab，其中论文第一作者肖涵，主要研究方向为多模态大模型和智能体学习，合作作者王国志，研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报

7139 点击 2025-11-08 11:00

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding：打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding：打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding：打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中，传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。

来自主题: AI技术研报

9039 点击 2025-11-04 10:42

ICCV 2025｜训练太复杂？对图片语义、布局要求太高？图像morphing终于一步到位

ICCV 2025｜训练太复杂？对图片语义、布局要求太高？图像morphing终于一步到位

ICCV 2025｜训练太复杂？对图片语义、布局要求太高？图像morphing终于一步到位

本文第一作者操雨康，南洋理工大学MMLab博士后，研究方向是3D/4D重建与生成，人体动作/视频生成，以及图像生成与编辑。

来自主题: AI技术研报

8641 点击 2025-07-18 11:12

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

最近，上海交通大学 ScaleLab 与香港大学 MMLab@HKU 领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平台在 CVPR 上举办的双臂协作竞赛 Technical Report。

来自主题: AI技术研报

8100 点击 2025-07-08 11:18

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

9728 点击 2025-06-17 10:21

端到端GUI智能体首次实现“犯错-反思-修正”闭环，模拟人类认知全过程

端到端GUI智能体首次实现“犯错-反思-修正”闭环，模拟人类认知全过程

端到端GUI智能体首次实现“犯错-反思-修正”闭环，模拟人类认知全过程

端到端多模态GUI智能体有了“自我反思”能力！南洋理工大学MMLab团队提出框架GUI-Reflection。

来自主题: AI技术研报

10455 点击 2025-06-12 12:11

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

“先推理、再作答”，语言大模型的Thinking模式，现在已经被拓展到了图片领域。

来自主题: AI技术研报

8472 点击 2025-05-13 15:02

DeepSeek、OpenAI、Kimi视觉推理到底哪家强？港中文MMLab推出推理基准MME-COT

DeepSeek、OpenAI、Kimi视觉推理到底哪家强？港中文MMLab推出推理基准MME-COT

DeepSeek、OpenAI、Kimi视觉推理到底哪家强？港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维（Chain-of-Thought, CoT）展示了超强的推理能力，但这一能力能多大程度地帮助视觉推理，又应该如何细粒度地评估视觉推理呢？

来自主题: AI技术研报

9420 点击 2025-02-22 21:27

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时，多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报

9051 点击 2025-01-18 10:48

上一页当前第1页,共2页下一页