AI资讯新闻榜单内容搜索-Ai测评

AI竞技场，归根到底只是一门生意

AI模型排行榜分两类：以高考式标准化测试衡量特定能力的客观基准测试（如AAII、MMLU-Pro），以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场（如LMArena）。两者各有优劣和局限性，且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型，实用性至上。

来自主题: AI资讯

10798 点击 2025-08-07 10:45

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没，通通0分。谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯

10629 点击 2025-06-19 11:03

“确实来钱快”！王自如宣布在AI领域重新创业，称离开格力是人生低谷，感谢雷军和董明珠

6月5日，微博认证为“ZEALER创始人&CEO”的王自如发文称，“明天我想用15分钟的时间带大家了解我为什么离开 ZEALER 、为什么离开格力，以及我为什么在AI领域选择二次创业，期待明天与大家重新认识。

来自主题: AI资讯

9945 点击 2025-06-06 16:20

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了？

来自主题: AI技术研报

9582 点击 2025-05-06 14:09

Gemini-2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品

多模态大模型几何解题哪家强？

来自主题: AI技术研报

9863 点击 2025-04-28 17:35

离谱！DeepSeek数个字母，竟要“反思内耗”八百遍？

最近，我撞见了一个 DeepSeek 又“认真”又“拧巴”的怪异场景。

来自主题: AI技术研报

10334 点击 2025-04-23 10:23

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

近年来，代码评测集数量激增，但质量参差不齐。为规范其开发，香港科技大学联合多所高校研究了过去十年的274个代码评测集，发现诸多问题，如数据重复、测试用例错误、隐私信息未删除等。基于此，他们推出了《代码评测集发展指南55项》（How2Bench），涵盖设计、构建、评测、分析、发布五大阶段，旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报

9401 点击 2025-03-18 10:54