AI资讯新闻榜单内容搜索-AI基准

真实场景文档理解：字节发布的WildDoc基准数据集向OCR提出了什么挑战？

最近，字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。

来自主题: AI资讯

12774 点击 2025-06-11 14:54

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

给大模型当老师，让它一步步按你的想法做数据分析，有多难？

来自主题: AI技术研报

8876 点击 2025-06-10 16:25

红杉中国xbench全球首发，AI智能体真实战力揭榜！

刚刚，全新AI基准测试工具xbench诞生，通过双轨评估体系和长青评估机制，追踪模型能力与实际场景价值。

来自主题: AI技术研报

12077 点击 2025-05-27 14:04

红杉中国发布 xbench，首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报

9783 点击 2025-05-27 09:50

颜水成领衔，给AI分段位！超100款多模态模型，无人达到L5

理想中的多模态大模型应该是什么样？十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集，用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足，且多数通用模型未能超越专家模型，真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报

10933 点击 2025-05-19 17:08

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

多模态大模型（Multimodal Large Language Models, MLLM）正迅速崛起，从只能理解单一模态，到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此，在AI竞赛进入“下半场”之际（由最近的OpenAI研究员姚顺雨所引发的共识观点），设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报

10020 点击 2025-05-16 15:06