AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
罗福莉C位亮相小米,离职DeepSeek后首次官宣

罗福莉C位亮相小米,离职DeepSeek后首次官宣

罗福莉C位亮相小米,离职DeepSeek后首次官宣

就在今天,罗福莉以C位之姿,首次对外官宣了小米任职。刚刚,罗福莉在X上高调宣布——正式加入小米,出任MiMo团队负责人。智能的进化必然会从语言世界走向物理世界,解锁多模态的空间智能——具备感知、推理、生成与行动的能力,这是实现真正通用人工智能(AGI)的关键一步。

来自主题: AI资讯
7935 点击    2025-11-12 19:07
NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

华中科技大学团队推出首个水下多模态大模型NAUTILUS,支持8种水下场景理解任务,并开源145万图文对的NautData数据集。模型通过视觉特征增强模块解决水下图像模糊和颜色失真问题,性能超越现有模型,恶劣环境下表现更佳。

来自主题: AI技术研报
10436 点击    2025-11-12 17:16
全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署

全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署

全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署

在数字经济浪潮中,企业对于高效、精准的信息获取与决策支持的需求日益迫切。从前沿科学探索到行业趋势分析,再到企业级决策支持,一个能够从海量异构数据源中提取关键知识、执行多步骤推理并生成结构化或多模态输出的「深度研究系统」正变得不可或缺。

来自主题: AI技术研报
7060 点击    2025-11-12 17:05
PixelRefer :让AI从“看大图”走向“看懂每个对象”

PixelRefer :让AI从“看大图”走向“看懂每个对象”

PixelRefer :让AI从“看大图”走向“看懂每个对象”

多模态大模型(MLLMs)虽然在图像理解、视频分析上表现出色,但多停留在整体场景级理解。

来自主题: AI技术研报
10469 点击    2025-11-11 09:50
NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

在 AI 技术飞速发展的今天,如何高效地将多个专业模型的能力融合到一个通用模型中,是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作,但是在高效微调领域,尚未有对模型合并范式清晰的指引。

来自主题: AI技术研报
7373 点击    2025-11-10 14:25
长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

去年,谢赛宁(Saining Xie)团队发布了 Cambrian-1,一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3,而是停下来思考:真正的多

来自主题: AI技术研报
7475 点击    2025-11-09 10:38
英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

OmniVinci是英伟达推出的全模态大模型,能精准解析视频和音频,尤其擅长视觉和听觉信号的时序对齐。它以90亿参数规模,性能超越同级别甚至更高级别模型,训练数据效率是对手的6倍,大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中,OmniVinci能提供高效支持,展现出卓越的多模态应用能力。

来自主题: AI资讯
7917 点击    2025-11-08 11:23
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报
6864 点击    2025-11-08 11:00
具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

当前机器人领域,基础模型主要基于「视觉-语言预训练」,这样可将现有大型多模态模型的语义泛化优势迁移过来。但是,机器人的智能确实能随着算力和数据的增加而持续提升吗?我们能预测这种提升吗?

来自主题: AI技术研报
6244 点击    2025-11-05 16:42