AI资讯新闻榜单内容搜索-AI评测基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI评测基准
AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

来自主题: AI技术研报
5262 点击    2025-12-16 09:19
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力?

来自主题: AI资讯
8939 点击    2025-08-15 20:41
全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯
8372 点击    2025-06-12 15:30