AI资讯新闻榜单内容搜索-评测基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 评测基准
GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则

最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示,即使是顶尖大模型在处理复杂任务时也表现不佳,尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话,揭示了AI在专业领域的不足,强调开发更可靠AI系统的重要性。

来自主题: AI技术研报
6635 点击    2025-11-22 11:33
VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?有研究人员给出了一条实用且富有启发性的答案:把大型多模态模型(MLLM)放在「诊断—补弱—精细化评估」的闭环中训练,并配套一个结构化的评测基准,从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报
6574 点击    2025-10-29 09:53
AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。

来自主题: AI技术研报
6832 点击    2025-10-20 10:13
杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注

杜克大学与 Zoom 的研究者们推出了 LiveMCP-101,这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准。该基准包含 101 个精心设计的任务,涵盖旅行规划,体育娱乐,软件工程等多种不同场景,要求 Agent 在多步骤、多工具协同的场景下完成任务。

来自主题: AI技术研报
6656 点击    2025-08-29 11:13
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力?

来自主题: AI资讯
8608 点击    2025-08-15 20:41
10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑

最强具身大脑,宝座易主!在10项评测中,国产RoboBrain 2.0全面超越GPT-4o。这次,智源研究院开源了具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0单机版。不仅问鼎评测基准SOTA,还成功刷新跨本体多机协作技术范式!

来自主题: AI技术研报
8539 点击    2025-07-14 16:12
RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

最近,上海交通大学 ScaleLab 与香港大学 MMLab@HKU 领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平台在 CVPR 上举办的双臂协作竞赛 Technical Report。

来自主题: AI技术研报
7427 点击    2025-07-08 11:18
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布!巧妙构建超高质量的千万级人类偏好样本,刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数,小体积也能媲美大模型性能。

来自主题: AI技术研报
7475 点击    2025-07-05 14:00