AI资讯新闻榜单内容搜索-模型测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型测试
一些大模型,高分低能,为何?

一些大模型,高分低能,为何?

一些大模型,高分低能,为何?

这篇文章的思路来自 Philipp Schmid,由 minghao 推荐 https://www.philschmid.de/agent-harness-2026

来自主题: AI资讯
8693 点击    2026-01-07 16:01
为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”

为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”

为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”

OpenRouter 创立于 2023 年初,给用户提供一个统一的 API Key,用于调用自身接入的所有模型,既包括了市面上的主流基础模型,也包括部分开源模型,一些开源模型还有多个不同的供应商。如果用户选择使用自有的 Key ,也可以同时享受 OpenRouter 的统一接口与其他服务。

来自主题: AI资讯
9505 点击    2025-09-24 09:51
Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”

Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”

Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”

AI不一定是“邪恶”的,但它也远非“中立无害”。 过去几年里,我们习惯了通过 ChatGPT 等 AI 产品提问、聊天、生成代码。

来自主题: AI技术研报
9750 点击    2025-06-26 09:28
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。

来自主题: AI产品测评
10879 点击    2025-04-01 14:25
全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

AI界「智商大考」ARC-AGI-2重磅出炉了!一个人类用5分钟轻松解开的谜题,却让最顶尖LLM全线崩盘得分挂零,o3更是从曾经76%暴跌至4%。它正式宣告,人类还未实现AGI。

来自主题: AI技术研报
8457 点击    2025-03-25 17:53