AI资讯新闻榜单内容搜索-benchmark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: benchmark
YC总裁转发、登顶Hacker News:SkillsBench揭开Agent技能扩展的残酷真相

YC总裁转发、登顶Hacker News:SkillsBench揭开Agent技能扩展的残酷真相

YC总裁转发、登顶Hacker News:SkillsBench揭开Agent技能扩展的残酷真相

近日,一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文预印本引爆了海外 AI 社区,YC 总裁 Garry Tan 亲自转发,登顶 Hacker News(363 票 / 163 评论),霸榜 AlphaXiv #1,

来自主题: AI技术研报
6549 点击    2026-03-07 11:08
弯道超车?国产具身,千小时人类数据激发智能涌现

弯道超车?国产具身,千小时人类数据激发智能涌现

弯道超车?国产具身,千小时人类数据激发智能涌现

导读:近日,位于中关村的深度机智全球首次使用全新范式——人类学习,在多个国际 Benchmark 上取得 SOTA,史无前例地使用全新架构(仅使用人类第一视角数据、零真机数据)击败 Physical Intelligence 和英伟达等头部巨头二十多个百分点,并在两会开幕首日被央视报道。

来自主题: AI技术研报
8211 点击    2026-03-05 14:29
不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报
7225 点击    2026-03-04 13:44
ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知

来自主题: AI技术研报
9589 点击    2026-02-22 11:17
发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

百川智能表示今年上半年,将陆续发布两款 to C 的医疗产品。 作者|Li Yuan 编辑|郑玄 你有没有向 AI 助手问过你的健康问题? 如果你和我一样是一个 AI 的深度用户,大概率你也试过。 O

来自主题: AI资讯
9313 点击    2026-01-14 09:24
刚刚!智谱唐杰发内部信:回归AGI主线,GLM5很快发布!不做传统公司,用咖啡精神做AGI!曝2026发力点:模型架构和学习范式

刚刚!智谱唐杰发内部信:回归AGI主线,GLM5很快发布!不做传统公司,用咖啡精神做AGI!曝2026发力点:模型架构和学习范式

刚刚!智谱唐杰发内部信:回归AGI主线,GLM5很快发布!不做传统公司,用咖啡精神做AGI!曝2026发力点:模型架构和学习范式

1月8日,大模型六小龙第一股,智谱上市了,市值直超551亿港元,而且一路涨幅超已逾7%。而就在上市前一天,小编注意到,智谱创立发起人兼首席科学家唐杰在微博上发布了一条充满预告意味的帖子,称:“AA(artificialanalysis)换了几个benchmark,基本是把原来刷爆的都换了,现在评估越来越难,新增加的Physical Reasoning貌似还很难。。。。”

来自主题: AI资讯
8656 点击    2026-01-08 16:16
向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差

向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差

向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差

将多模态数据纳入到RAG,甚至Agent框架,是目前LLM应用领域最火热的主题之一,针对多模态数据最自然的召回方式,便是向量检索。

来自主题: AI技术研报
7006 点击    2025-12-26 09:40
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报
8803 点击    2025-11-28 09:28
Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Sasha Rush 在分享开头就提到,Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型(前沿模型)持平,并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型,以及那些被标榜为"快速"的模型。

来自主题: AI技术研报
8780 点击    2025-11-11 11:12
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报
7858 点击    2025-10-23 16:22