谷歌推出开源框架,要给AI大模型的跑分“立规矩”

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
6816点击    2025-05-29 09:49

既当裁判员,又当运动员?


“不服跑个分”,曾经是风靡手机圈的一句话,只不过随着用户越来越注重产品的综合体验,“唯分数论”已经逐渐被手机行业边缘化。可贯彻着万物皆可跑分的原则,AI大模型也成为了“不服跑个分”新的受众。


谷歌推出开源框架,要给AI大模型的跑分“立规矩”


只不过相比于智能手机、PC,AI大模型跑分如今还属于是“百家争鸣”的状态。


其中既有清华大学的C-Eval、上海交通大学的CMMLU、伯克利的大模型竞技场(Chatbot Arena)等知名学府推出的榜单,也有民间高手自建的MMLU,甚至于做投资的红杉中国也搞出了自己的AI基准测试工具xbench。


有鉴于此,谷歌也坐不住了。


01


日前爆料称,谷歌方面计划推出开源框架LMEval,为大语言模型和多模态模型提供标准化的评测工具。基于LMEval框架,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,可以大幅简化评测工作,从而节省时间和资源。


谷歌推出开源框架,要给AI大模型的跑分“立规矩”


具体来说,谷歌的LMEval支持旨在简化LLM访问和管理的开源项目LiteLLM,并确保测试能够横跨Azure、AWS、HuggingFace、Cohere、Ollama等主要平台。此外,据称LMEval不仅支持文本评测,还涵盖了图像和代码等当下的热门领域,并能识别大模型采用的“规避策略”,即故意给出模糊回答、以避免生成有风险的内容。


除了测试AI大模型的性能,作为业界巨头,谷歌还为LMEval引入了Giskard安全评分,以展示其规避有害内容的表现,百分比越高则代表安全性越强。同时为了打消开发者的顾虑,谷歌方面强调测试结果会存储在加密的SQLit数据库中,确保数据本地化、且不会被搜索引擎抓取。


谷歌推出开源框架,要给AI大模型的跑分“立规矩”


02


可是谷歌旗下如今是有Gemini模型的,他们再做一个LMEval真的不是既当裁判员,又当运动员吗?


其实谷歌也是不得已而为之,毕竟当下AI大模型的基准测试可谓是群魔乱舞。比如,Meta最新的LIama 4模型之所以能成为大模型竞技场排名第一的开源模型,靠的是为大模型竞技场提供特殊版本。


众所周知,AI大模型的跑分其实是以做题为核心,即在规定的时间内答对基准测试榜单提出的问题,正确率越高、用时越短,模型的能力就越强。所以为了提高跑分成绩,AI大模型就好似高三的学生一样,不断地在各个榜单的题库里刷题。可问题在于,AI大模型的学习能力和运行效率要远胜过高三的学生,所以随着题库纷纷被刷爆,一个基准测试的有效时间就会急剧缩短。


谷歌推出开源框架,要给AI大模型的跑分“立规矩”


比如在过去两年间,包含了上至数论、代数、几何等高级数学问题的GSM8k、MATH数学基准测试中,AI大模型的正确率动辄就可以达到80%。但问题在于,为了让AI大模型在数学测试中表现更好,就拿题库里的真题来训练,这样并不会增强AI的泛化能力,只是可以在基准测试中占到便宜,从而让自家的模型有更强的传播价值。


以至于OpenAI的开发者调侃,我们总是在开发新的训练算法和模型来刷榜,而第三方又创造出更难的榜单,之后再重复这个循环。微软CEO萨蒂亚·纳德拉更是曾经在播客节目中吐槽到,“我们自称取得了一些AGI里程碑,这只是无意义的基准作弊(benchmark hacking)。”


谷歌推出开源框架,要给AI大模型的跑分“立规矩”


03


所以当下AI业界有一个无法回避的难题,那就是想要真实、且客观地反映AI的能力正变得越来越困难,业界亟待构建一个评价体更加科学、长效和如实反映AI客观能力的体系。然而遗憾的是,一如PC厂商能针对鲁大师能进行专项调优、手机厂商针对DxOMark进行特调一样,科学、长效和真实几乎是不可能的三角。


现在AI行业的解决方案是“去中心化”,即推出尽可能多元化的基准测试,来让AI大模型的“刷题”效率下降。可去中心化也是有代价的,毕竟不同榜单使用的API、数据格式和基准设置不同,这就使得大模型的开发者想要完整地展现模型的能力,需要花费大量的时间和精力。所以谷歌推出的LMEval虽然并非是一个直接可用的榜单,而是一套标准化的评测流程。


谷歌推出开源框架,要给AI大模型的跑分“立规矩”


简单来说,谷歌这次是要给AI大模型的跑分制定一套标准,只要使用LMEval,无论是测试AI大模型的文本、视频、数学,还是代码等能力,就都不需要再切换API、对接不同的测试集。


文章来自于“三易生活”,作者“三易菌”。


谷歌推出开源框架,要给AI大模型的跑分“立规矩”

关键词: AI , 谷歌AI , LMEval , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/