AI资讯新闻榜单内容搜索-AI基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI基准
AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。

来自主题: AI技术研报
6252 点击    2025-10-20 10:13
AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI能像科幻电影中的先知一样预测未来吗?一个名为「Prophet Arena」的全新基准测试,正通过预测真实世界事件来评估AI的「预言」能力。

来自主题: AI资讯
7083 点击    2025-08-18 19:05
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力?

来自主题: AI资讯
8198 点击    2025-08-15 20:41
JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

大部分现有的文档检索基准(如MTEB)只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中,这些基准就无能为力。为了更好的开发下一代向量模型和重排器,我们首先需要一个能评测模型在视觉复杂文档能力的基准集。

来自主题: AI技术研报
9743 点击    2025-08-07 14:43
红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

刚刚,全新AI基准测试工具xbench诞生,通过双轨评估体系和长青评估机制,追踪模型能力与实际场景价值。

来自主题: AI技术研报
10033 点击    2025-05-27 14:04
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报
8110 点击    2025-05-27 09:50
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

理想中的多模态大模型应该是什么样?十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集,用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足,且多数通用模型未能超越专家模型,真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报
9177 点击    2025-05-19 17:08
GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

多模态大模型(Multimodal Large Language Models, MLLM)正迅速崛起,从只能理解单一模态,到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此,在AI竞赛进入“下半场”之际(由最近的OpenAI研究员姚顺雨所引发的共识观点),设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报
8229 点击    2025-05-16 15:06