AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

就在昨夜,阿里带着全新多模态模型Qwen-VLo开启炸场模式。据介绍,Qwen-VLo在阿里原有的多模态理解和生成能力上进行了全面升级,具备三大亮点:

来自主题: AI资讯
6512 点击    2025-06-28 17:57
谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型

谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型

谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型

本周五凌晨,谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。谷歌表示,Gemma 3n 代表了设备端 AI 的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。

来自主题: AI资讯
7868 点击    2025-06-27 09:00
沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏,AI不仅掌握了游戏技巧,还培养出强大的跨领域推理能力,在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报
5226 点击    2025-06-17 16:53
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报
6301 点击    2025-06-07 14:20
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报
8617 点击    2025-05-31 14:37
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报
6556 点击    2025-05-30 17:30
字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节最近真的猛猛开源啊……这一次,他们直接开源了GPT-4o级别的图像生成能力。不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报
8019 点击    2025-05-24 17:34
多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报
7028 点击    2025-05-23 14:52