AI资讯新闻榜单内容搜索-PRBench

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: PRBench

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则

最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示，即使是顶尖大模型在处理复杂任务时也表现不佳，尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话，揭示了AI在专业领域的不足，强调开发更可靠AI系统的重要性。

来自主题: AI技术研报

8660 点击 2025-11-22 11:33