AI资讯新闻榜单内容搜索-AI基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI基准
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报
8014 点击    2025-11-28 09:28
AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。

来自主题: AI技术研报
7138 点击    2025-10-20 10:13
AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI能像科幻电影中的先知一样预测未来吗?一个名为「Prophet Arena」的全新基准测试,正通过预测真实世界事件来评估AI的「预言」能力。

来自主题: AI资讯
7707 点击    2025-08-18 19:05
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力?

来自主题: AI资讯
8905 点击    2025-08-15 20:41
JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

大部分现有的文档检索基准(如MTEB)只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中,这些基准就无能为力。为了更好的开发下一代向量模型和重排器,我们首先需要一个能评测模型在视觉复杂文档能力的基准集。

来自主题: AI技术研报
10345 点击    2025-08-07 14:43
红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

刚刚,全新AI基准测试工具xbench诞生,通过双轨评估体系和长青评估机制,追踪模型能力与实际场景价值。

来自主题: AI技术研报
10658 点击    2025-05-27 14:04
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报
8686 点击    2025-05-27 09:50
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

理想中的多模态大模型应该是什么样?十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集,用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足,且多数通用模型未能超越专家模型,真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报
9832 点击    2025-05-19 17:08