AI资讯新闻榜单内容搜索-AI评测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI评测
全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯
6208 点击    2025-06-12 15:30
GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

多模态大模型(Multimodal Large Language Models, MLLM)正迅速崛起,从只能理解单一模态,到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此,在AI竞赛进入“下半场”之际(由最近的OpenAI研究员姚顺雨所引发的共识观点),设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报
7008 点击    2025-05-16 15:06
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式

ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式

ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式

开发能在开放世界中完成多样任务的通用智能体,是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性,智能体必须具备真正的泛化能力才能稳健应对。然而,现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素,难以准确衡量智能体是否真正「理解」任务,或仅是「记住」了特定解法。

来自主题: AI技术研报
5849 点击    2025-05-14 10:26
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报
7470 点击    2025-04-02 14:58
中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

在当今迅速发展的人工智能时代,大语言模型(LLMs)在各种应用中发挥着至关重要的作用。然而,随着其应用的广泛化,模型的安全性问题也引起了广泛关注。

来自主题: AI资讯
7221 点击    2024-12-27 10:08
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。

来自主题: AI产品测评
7384 点击    2024-12-26 09:20