AI资讯新闻榜单内容搜索-xbench

红杉 xbench：AI 去药企做实习，遥遥领先了人类

xbench，就是红杉自己弄的那个中立评测lab，刚刚又整了个新活：让 AI 做药企的数据分析，跟人类实习生比个高低，然后遥遥领先的赢了

来自主题: AI技术研报

6277 点击 2026-05-19 10:30

随着大模型在单点推理上日益逼近 PhD 水平，Agent 领域迎来了新的分水岭：短程任务表现惊艳，长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力，红杉中国在两周内连续发布两篇论文，旨在通过构建更科学的评估基准，预判技术演进的未来方向。

来自主题: AI技术研报

8890 点击 2026-01-22 10:06

刚刚，全新AI基准测试工具xbench诞生，通过双轨评估体系和长青评估机制，追踪模型能力与实际场景价值。

来自主题: AI技术研报

11988 点击 2025-05-27 14:04

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报

9685 点击 2025-05-27 09:50