AI资讯新闻榜单内容搜索-模型测试

一些大模型，高分低能，为何？

这篇文章的思路来自 Philipp Schmid，由 minghao 推荐 https://www.philschmid.de/agent-harness-2026

来自主题: AI资讯

10026 点击 2026-01-07 16:01

OpenRouter 创立于 2023 年初，给用户提供一个统一的 API Key，用于调用自身接入的所有模型，既包括了市面上的主流基础模型，也包括部分开源模型，一些开源模型还有多个不同的供应商。如果用户选择使用自有的 Key ，也可以同时享受 OpenRouter 的统一接口与其他服务。

来自主题: AI资讯

11182 点击 2025-09-24 09:51

人类一眼就能看懂的文字，AI居然全军覆没。

来自主题: AI技术研报

7611 点击 2025-09-10 12:00

又一个让大模型几乎全军覆没的难题出现了。

来自主题: AI资讯

8387 点击 2025-07-06 15:40

AI不一定是“邪恶”的，但它也远非“中立无害”。过去几年里，我们习惯了通过 ChatGPT 等 AI 产品提问、聊天、生成代码。

来自主题: AI技术研报

10546 点击 2025-06-26 09:28

拷打AI的难度还在升级？这不，图像推理又出现了新难题。

来自主题: AI资讯

7387 点击 2025-05-20 10:49

大模型竞技场的可信度，再次被锤。

来自主题: AI技术研报

9507 点击 2025-05-02 17:56

数学题，一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可。最近，我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”，用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。

来自主题: AI产品测评

13131 点击 2025-04-01 14:25

AI界「智商大考」ARC-AGI-2重磅出炉了！一个人类用5分钟轻松解开的谜题，却让最顶尖LLM全线崩盘得分挂零，o3更是从曾经76%暴跌至4%。它正式宣告，人类还未实现AGI。

来自主题: AI技术研报

9341 点击 2025-03-25 17:53

先是三星宣布智谱的Agentic GLM成为其新手机Galaxy S25的AI能力来源，紧接着The Information爆料，在经历了近一年的模型测试与合作伙伴探索后，苹果终于敲定了中国市场的合作伙伴：阿里巴巴。这意味着，中国iPhone用户很可能在今年迎来一个由国产大模型驱动的iPhone。

来自主题: AI资讯

10978 点击 2025-02-12 10:57