AI资讯新闻榜单内容搜索-R-bench

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

刚刚过去的GTC Taipei上，最备受关注的，莫过于Cosmos 3。

来自主题: AI技术研报

8254 点击 2026-06-04 09:13

谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选？OSU & Amazon最新

面对琳琅满目的Deep Research Agent（深度研究智能体），究竟该如何选型？本文基于OSU与Amazon最新发布的MMDR-Bench论文，为您提供一份经过严谨科学验证的“避坑指南”。结论先行：综合任务首选谷歌Gemini Deep Research，而涉及计算机科学与数据结构的硬核任务，GPT-5.2依然是专家首选。

来自主题: AI技术研报

8465 点击 2026-01-26 11:29

视频模型也能推理，Sora2推理能力超过GPT-5

DeepWisdom研究团队提出：视频生成模型不仅能画画，更能推理。为了验证这一观点，团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理（spatial reasoning）能力的基准测试

来自主题: AI技术研报

8748 点击 2025-12-06 10:57

让模型“看视频写网页”，GPT-5仅得36.35分！上海AI Lab联合发布首个video2code基准

多模态大模型在根据静态截图生成网页代码（Image-to-Code）方面已展现出不俗能力，这让许多人对AI自动化前端开发充满期待。

来自主题: AI技术研报

8239 点击 2025-10-20 14:57

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验：看完一部喜欢的动漫，总会心血来潮地想去 “圣地巡礼”；刷到别人剪辑精美的旅行 vlog，也会忍不住收藏起来，想着哪天亲自走一遍同样的路线。旅行与影像的结合，总是能勾起人们的

来自主题: AI技术研报

9098 点击 2025-10-15 12:30

十亿级参数，千亿级性能，上海AI Lab发布新一代文档解析大模型，复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果，该模型仅以1.2B参数规模，就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上，全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型，以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报

9797 点击 2025-09-30 10:45

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

视频理解的CoT推理能力，怎么评？

来自主题: AI技术研报

7228 点击 2025-04-18 09:46