AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
元石科技正式发布问小白5,性能直追GPT-5

元石科技正式发布问小白5,性能直追GPT-5

元石科技正式发布问小白5,性能直追GPT-5

本月初,AI 圈翘首以盼的 GPT-5 终于问世,在数学、实际编程、多模态理解、推理等多个领域实现了新的 SOTA。今日,国产 AI 厂商元石科技重磅推出「All in One」旗舰模型 —— 问小白 5,成为其迄今为止最智能、最快捷、最实用的 AI 系统。尤其值得强调的是:问小白 5 的各项基准测试榜单成绩最接近 GPT-5,这使其成为当前国产大模型中最具代表性的对标者。

来自主题: AI资讯
5320 点击    2025-08-29 14:14
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
7043 点击    2025-08-28 12:20
刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。

来自主题: AI技术研报
6577 点击    2025-08-27 13:05
搞不定有表格数据和多模态的Prompt?试下微软最新的提示词编排标记语言POML

搞不定有表格数据和多模态的Prompt?试下微软最新的提示词编排标记语言POML

搞不定有表格数据和多模态的Prompt?试下微软最新的提示词编排标记语言POML

最近来自微软的研究者们带来了一个全新的思路,他们开源发布了POML(Prompt Orchestration Markup Language),它的的解决方案它的核心思想非常直接:为什么我们不能像开发网页一样,用工程化的思维来构建和管理我们的Prompt呢?这个编排语言很类似IBM的PDL

来自主题: AI技术研报
6363 点击    2025-08-27 11:11
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

来自主题: AI资讯
8049 点击    2025-08-26 23:30
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。

来自主题: AI技术研报
5191 点击    2025-08-22 16:20
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力

来自主题: AI技术研报
6869 点击    2025-08-22 10:35
刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元

刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元

刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元

多模态的生成,是 AI 未来的方向。 最近,AI 领域的气氛正在发生微妙的变化。比如,刚刚推出了 Grok 4 的 xAI 却在重点宣传他们的视频生成模型 Grok Image。

来自主题: AI资讯
5225 点击    2025-08-22 09:19
全球大模型季报:“犹太人的金融,华人的AGI”

全球大模型季报:“犹太人的金融,华人的AGI”

全球大模型季报:“犹太人的金融,华人的AGI”

硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines Lab 分化到多模态和下一代交互。

来自主题: AI技术研报
5886 点击    2025-08-21 12:32