AI资讯新闻榜单内容搜索-多模态

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务，图像编辑评测新基准来了！360个全部由人类专家仔细思考并校对的高质量测试案例，暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报

9303 点击 2025-05-31 14:37

字节开源了一个了不得的模型！

字节跳动开源了一个口碑还不错的模型——BAGEL （ByteDance Agnostic Generation and Empathetic Language model）, 一个统一多模态基础模型。啥叫“统一”？一个模型就能同时理解和生成文本、图像、视频！

来自主题: AI资讯

6717 点击 2025-05-31 13:45

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报

7149 点击 2025-05-30 17:30

LLM省钱大测评！48块GH200，首个百亿级参数量实证

EfficientLLM项目聚焦LLM效率，提出三轴分类法和六大指标，实验包揽全架构、多模态、微调技术，可为研究人员提供效率与性能平衡的参考。

来自主题: AI技术研报

7588 点击 2025-05-29 17:16

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率低至55%

当前顶尖AI模型是否真能“看懂”物理图像？

来自主题: AI资讯

6151 点击 2025-05-29 13:58

Google CEO：AI 比互联网还大，未来将是多终端并行

Google I/O 2025 结束后，Google CEO Sundar Pichai 接受了《The Verge》主编专访，这也是双方连续第三年于 I/O 后展开对谈，而今年的背景更为特殊：Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台，Google 展现出前所未有的产品化信心。

来自主题: AI资讯

8367 点击 2025-05-29 09:53