AI资讯新闻榜单内容搜索-AI评测

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: AI评测

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

当前，驱动科学研究的人工智能（AI for Science，AI4S）在单点取得了可观的进展，实现了工具层面的革新，然而要成为「革命的工具」，需要采用「通专融合 AGI」方式。

来自主题: AI技术研报

8121 点击 2025-07-11 10:51

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench，并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白，更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯

6325 点击 2025-06-12 15:30

五大场景实测Manus、Flowith、Lovart：20 美元能否撬动Agent百倍效率？

五大场景实测Manus、Flowith、Lovart：20 美元能否撬动Agent百倍效率？

五大场景实测Manus、Flowith、Lovart：20 美元能否撬动Agent百倍效率？

2025年上半年，Agent成为大模型领域讨论最多的主题之一。

来自主题: AI资讯

6991 点击 2025-05-28 12:28

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

多模态大模型（Multimodal Large Language Models, MLLM）正迅速崛起，从只能理解单一模态，到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此，在AI竞赛进入“下半场”之际（由最近的OpenAI研究员姚顺雨所引发的共识观点），设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报

7091 点击 2025-05-16 15:06

ICML Spotlight | MCU：全球首个生成式开放世界基准，革新通用AI评测范式

ICML Spotlight | MCU：全球首个生成式开放世界基准，革新通用AI评测范式

ICML Spotlight | MCU：全球首个生成式开放世界基准，革新通用AI评测范式

开发能在开放世界中完成多样任务的通用智能体，是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性，智能体必须具备真正的泛化能力才能稳健应对。然而，现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素，难以准确衡量智能体是否真正「理解」任务，或仅是「记住」了特定解法。

来自主题: AI技术研报

5924 点击 2025-05-14 10:26

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

模型胡乱论证“1+1=3”，评测系统却浑然不觉甚至疯狂打Call？是时候给奖励模型打个分了！

来自主题: AI技术研报

6883 点击 2025-05-10 17:13

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

7546 点击 2025-04-02 14:58

速递｜高中生在《我的世界》发起AI智力标准，百万建造玩家投票选出最佳模型

速递｜高中生在《我的世界》发起AI智力标准，百万建造玩家投票选出最佳模型

速递｜高中生在《我的世界》发起AI智力标准，百万建造玩家投票选出最佳模型

随着传统的人工智能基准测试技术显得力不从心，AI 构建者正转向更具创意的方法来评估生成式 AI 模型的能力。

来自主题: AI资讯

6441 点击 2025-03-22 15:11

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集，仅三个大模型达及格线

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集，仅三个大模型达及格线

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集，仅三个大模型达及格线

在当今迅速发展的人工智能时代，大语言模型（LLMs）在各种应用中发挥着至关重要的作用。然而，随着其应用的广泛化，模型的安全性问题也引起了广泛关注。

来自主题: AI资讯

7294 点击 2024-12-27 10:08

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

还有不到一周就2025年了，各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年，AI模型这份年终答卷，自然也少不了。

来自主题: AI产品测评

7541 点击 2024-12-26 09:20

上一页当前第1页,共2页下一页