GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则 GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则 关键词: 模型训练,PRBench,Scale AI,评测基准 最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示,即使是顶尖大模型在处理复杂任务时也表现不佳,尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话,揭示了AI在专业领域的不足,强调开发更可靠AI系统的重要性。 来自主题: AI技术研报 6635 点击 2025-11-22 11:33