AI资讯新闻榜单内容搜索-多模态模型

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V，在42个公开榜单中41项夺得SOTA！其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

来自主题: AI资讯

6090 点击 2025-08-12 13:04

上上周一的晚上，智谱开源了当今最好的模型之一，GLM-4.5。然后，这个周一，又是突如其来的，开源了他们现在最好的多模态模型： GLM-4.5v。

来自主题: AI资讯

5175 点击 2025-08-12 10:58

近日，上海人工智能独角兽阶跃星辰宣布，正在进行新一轮融资，金额预计超过5 亿美元，或成为 2025 年国内大模型行业最大单笔融资。本轮融资由上海国有资本投资有限公司（简称 “上海国投”）等战略投资方领投，资金将重点用于多模态模型研发、推理效率优化及智能终端场景落地。

来自主题: AI资讯

7472 点击 2025-07-27 20:32

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校（UIUC）与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报

6158 点击 2025-07-11 16:23

vivo AI Lab发布AI多模态新模型了，专门面向端侧设计，紧凑高效～

来自主题: AI技术研报

6329 点击 2025-07-10 11:30

多模态模型学会“按需搜索”！字节&NTU最新研究，优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制，首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报

6021 点击 2025-07-09 10:35

就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。据介绍，Qwen-VLo在阿里原有的多模态理解和生成能力上进行了全面升级，具备三大亮点：

来自主题: AI资讯

6664 点击 2025-06-28 17:57

本周五凌晨，谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。谷歌表示，Gemma 3n 代表了设备端 AI 的重大进步，它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能，其性能去年还只能在云端先进模型上才能体验。

来自主题: AI资讯

8067 点击 2025-06-27 09:00

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏，AI不仅掌握了游戏技巧，还培养出强大的跨领域推理能力，在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报

5345 点击 2025-06-17 16:53

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

6475 点击 2025-06-07 14:20