AI资讯新闻榜单内容搜索-开源多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 开源多模态
刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。

来自主题: AI技术研报
6460 点击    2025-08-27 13:05
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

来自主题: AI资讯
7986 点击    2025-08-26 23:30
首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,通过全自动流程生成高质量推理轨迹,并用冷启动微调和强化学习优化决策,使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯
5880 点击    2025-08-15 20:26
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V,在42个公开榜单中41项夺得SOTA!其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

来自主题: AI资讯
6200 点击    2025-08-12 13:04
刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。

刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。

刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。

上上周一的晚上,智谱开源了当今最好的模型之一,GLM-4.5。 然后,这个周一,又是突如其来的,开源了他们现在最好的多模态模型: GLM-4.5v。

来自主题: AI资讯
5251 点击    2025-08-12 10:58
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!

刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!

刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!

擅长「种草」的小红书正加大技术自研力度,两个月内接连开源三款模型!最新开源的首个多模态大模型dots.vlm1,基于自研视觉编码器构建,实测看穿色盲图,破解数独,解高考数学题,一句话写李白诗风,视觉理解和推理能力都逼近Gemini 2.5 Pro闭源模型。

来自主题: AI资讯
6251 点击    2025-08-07 18:41
又一SOTA级开源模型!阶跃Step-3多模态推理登顶,百万token解码成本不到4毛钱

又一SOTA级开源模型!阶跃Step-3多模态推理登顶,百万token解码成本不到4毛钱

又一SOTA级开源模型!阶跃Step-3多模态推理登顶,百万token解码成本不到4毛钱

又一个SOTA基础模型开源,而且依然是国产。 刚刚,阶跃星辰兑现了WAIC上的承诺,将最新多模态推理模型Step-3正式开源! 在MMMU等多个多模态榜单上,它一现身就取得了开源多模态推理模型新SOTA的成绩。

来自主题: AI技术研报
5993 点击    2025-08-01 12:52
昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

今日,昆仑万维重磅开源多模态推理模型Skywork-R1V 3.0,这是其迄今最强多模态推理模型,参数规模为38B,在多个多模态推理基准测试中取得了开源最佳(SOTA)性能。

来自主题: AI资讯
8985 点击    2025-07-09 21:42
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报
6650 点击    2025-07-05 13:02
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个开源多模态推理大模型来了!38B参数模型性能直逼DeepSeek-R1,同尺寸上横扫多项SOTA。而这家中国公司之所以选择无偿将技术思路开源,正是希望同DeepSeek一样,打造开源界的技术影响力。

来自主题: AI技术研报
9376 点击    2025-03-18 19:19