AI资讯新闻榜单内容搜索-评测基准

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 评测基准

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

在文化遗产与人工智能的交叉处，有一类问题既美也难：如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案，还能推断年代、产地、工坊甚至艺术归属？有研究人员给出了一条实用且富有启发性的答案：把大型多模态模型（MLLM）放在「诊断—补弱—精细化评估」的闭环中训练，并配套一个结构化的评测基准，从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报

7973 点击 2025-10-29 09:53

AI点外卖哪家强，美团LongCat团队做了个全面评测

AI点外卖哪家强，美团LongCat团队做了个全面评测

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

8647 点击 2025-10-20 10:13

AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

你有没有想过，AI 不仅能记住过去的一切，还能预见未知的未来？

来自主题: AI技术研报

9324 点击 2025-09-01 10:48

杜克大学、Zoom推出LiveMCP‑101：GPT‑5表现最佳但未破60%，闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101：GPT‑5表现最佳但未破60%，闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101：GPT‑5表现最佳但未破60%，闭源模型Token效率对数规律引关注

杜克大学与 Zoom 的研究者们推出了 LiveMCP-101，这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准。该基准包含 101 个精心设计的任务，涵盖旅行规划，体育娱乐，软件工程等多种不同场景，要求 Agent 在多步骤、多工具协同的场景下完成任务。

来自主题: AI技术研报

8133 点击 2025-08-29 11:13

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗？前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

来自主题: AI资讯

10376 点击 2025-08-15 20:41

10项评测痛打GPT-4o！智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o！智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o！智源重磅开源全球最强具身智能大脑

最强具身大脑，宝座易主！在10项评测中，国产RoboBrain 2.0全面超越GPT-4o。这次，智源研究院开源了具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0单机版。不仅问鼎评测基准SOTA，还成功刷新跨本体多机协作技术范式！

来自主题: AI技术研报

10192 点击 2025-07-14 16:12

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

最近，上海交通大学 ScaleLab 与香港大学 MMLab@HKU 领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平台在 CVPR 上举办的双臂协作竞赛 Technical Report。

来自主题: AI技术研报

9940 点击 2025-07-08 11:18

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布！巧妙构建超高质量的千万级人类偏好样本，刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数，小体积也能媲美大模型性能。

来自主题: AI技术研报

9121 点击 2025-07-05 14:00

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题，严重制约了AI模型真实能力的展现。

来自主题: AI技术研报

9499 点击 2025-06-20 15:23

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench，并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白，更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯

9793 点击 2025-06-12 15:30

上一页当前第3页,共5页下一页