AI资讯新闻榜单内容搜索-Benchmark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: Benchmark
超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报
6873 点击    2025-03-18 10:54
OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

最近AI圈最炸的瓜,毫无疑问是——Manus!一个AI Agent,不仅能刷GAIA Benchmark,还能远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」。听起来确实很能打?但我们 CAMEL-AI的🦉OWL项目看完Manus视频,集体摊手:就这?0天复刻走起!

来自主题: AI资讯
9240 点击    2025-03-07 14:33
Benchmark合伙人:训练大模型目前成本远大于收入;但理论上成功回报极大,所以你仍需不断加注

Benchmark合伙人:训练大模型目前成本远大于收入;但理论上成功回报极大,所以你仍需不断加注

Benchmark合伙人:训练大模型目前成本远大于收入;但理论上成功回报极大,所以你仍需不断加注

随着LLM的进步,它将超越代码补全(“Copilot”)的功能,进入代码创作(“Autopilot”)的领域。随着LLM变得越来越复杂,它们能够释放的经济价值也会越来越大。AGI的经济价值仅受我们的想象力限制。

来自主题: AI资讯
3098 点击    2024-10-15 14:01
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。

来自主题: AI技术研报
8356 点击    2024-06-29 00:07
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?GitHub上一种你没有见过的船新Benchmark火了。

来自主题: AI资讯
2539 点击    2024-04-01 18:30
中科院等万字详解:最前沿图像扩散模型综述

中科院等万字详解:最前沿图像扩散模型综述

中科院等万字详解:最前沿图像扩散模型综述

针对图像编辑中的扩散模型,中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。

来自主题: AI技术研报
4088 点击    2024-03-07 14:24