OpenAI和Google正在玩一个99%的人都不知道的游戏

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
OpenAI和Google正在玩一个99%的人都不知道的游戏
7387点击    2025-05-10 14:29

研究背景


AI研究中,基准测试(benchmark)和排行榜在评估模型性能上扮演着关键角色。


从早期的NLP竞赛(如TREC、WMT)到深度学习时代的大规模评测(如ImageNet、GLUE等),


统一的排行榜有助于比较不同模型的优劣,影响研究方向和资源投入 。


然而,对单一指标或排行榜的过度依赖可能导致问题:正如著名的 Goodhart 定律 所言,“当评价指标本身成为目标时,它就不再是一个好的指标” 。


换言之,如果研究者一味追求榜单名次,可能通过投机取巧来提高排名,反而偏离了真正促进模型能力提升的初衷 。


近期生成式AI的爆发式发展(如大型语言模型的竞赛)进一步加剧了这种压力 。


Chatbot Arena 榜单便是在此背景下崛起的一个案例。


Chatbot Arena由社区驱动,允许用户对话并对比两种匿名大语言模型的回答优劣,从而为众多模型产生一个相对排名。


由于传统静态测评难以跟上快速迭代的生成式模型,Chatbot Arena 提供了一个开放、动态的评测平台,也因此迅速成为比较大型语言模型能力的事实标准 。


媒体、产业和学术界都高度关注该榜单的排名变化 。理论上,一个动态、人工参与的对话评测平台可以不断引入新问题,反映模型在开放场景下的真实表现 。


然而,这种社区排行榜若运作不当,也可能产生偏差,让排名失真。


最近的研究表明,对单一排行榜的过度依赖可能导致模型开发者为了排名而“对榜单过拟合”,而非真正提高模型通用能力 。


研究动机


作者提出“Leaderboard Illusion(排行榜幻觉)”概念,意指排行榜上的名次可能并非客观反映模型真实水平,


而是受到一些隐蔽因素扭曲,产生了误导性的“优胜”假象。促使作者深入调查的直接动机有几点:


  • 异常的排行榜动态:作者留意到一些提供商的模型能够在极短时间内相继登顶 Chatbot Arena。比如,OpenAI 和 xAI 的模型曾在同一天轮流占据榜首;


Google DeepMind 的Gemini模型和OpenAI的ChatGPT版本也曾在相隔几天内你追我赶地夺取第一 。


考虑到大型模型的开发与调优通常需要较长周期,如此频繁的榜首易主暗示了某种非常规测试手段(例如同时测试多个备选模型并择优公布)。


这引起了作者对榜单公正性的怀疑。


  • 作者自身的参与经历:部分作者团队(Cohere实验室)也曾向 Chatbot Arena 提交过自家模型。


在实际参与过程中,他们察觉到平台上某些未经明示的特殊政策:


例如似乎有少数“受信任”的提供者可以私下测试多个模型而不公开结果,直到挑出表现最佳的版本才正式发布。


这样的经历促使他们系统性地审计 Arena 的运作机制,希望揭示其中不透明的环节 。


  • 公平性与科研风气:Chatbot Arena 的初衷是开放评测、全民参与,


但如果少数大公司利用隐秘特权攫取优势,不仅对其他研究者不公平,也可能扭曲整个科研方向。


排行榜如果被“玩法”操控,将误导社区对模型进展的认识,甚至造成资源错配。


作者希望通过揭示这些问题,引发社区对榜单可信度的反思,并推动更健康的评测文化。


综上,作者以 Chatbot Arena 为切入点,审视其评测排名机制中是否存在系统性偏差,从而提出“Leaderboard Illusion”来概括这些偏差导致的排名幻象现象。


方法与理论框架


为探究上述问题,作者设计了一个综合的研究方法,


包括数据审计、理论分析和模拟实验,提出了一个通用的Leaderboard评估与模拟协议来检验排行榜机制的可靠性。


  • 数据收集与审计:作者收集并整合了 2024年1月到2025年4月 期间 Chatbot Arena 的丰富数据,


包括超过 200万场对战记录、涉及 42个模型提供方的 243个模型 。


这些数据来源于公开的排行榜统计信息(如每个模型的胜负场数、评分等)、Arena提供的历史战斗记录,以及作者通过API获取的对战日志等。


通过数据审计,作者首先分类模型来源:


专有闭源模型(Proprietary,例如OpenAI、Google的API模型)、开放权重模型(Open-Weight,模型权重开放但可能有使用限制,如Meta的Llama系列)、


以及完全开源模型(Fully Open-Source,如社区开源的模型)。


他们检查了不同类别模型在Arena中的测试机会和数据量差异、模型提交与移除策略等。这个审计为后续分析提供了定量依据。


  • 理论分析:Bradley-Terry 模型假设:Chatbot Arena采用类似 Bradley-Terry (BT) 模型 的机制根据两两对战结果计算模型排名(Arena评分)。


BT模型假设每个模型有一个固定“实力”参数,任意两模型对战胜率由双方实力参数决定。重要假设是在统计充足对战下,模型实力评估是无偏的。


然而作者指出,Arena中如果存在选择性结果公布(例如开发者同时测试N个变体但只公布表现最好的一个),将违反BT模型的独立同分布假设。


简单来说,BT算法默认每个模型的出场和对战是随机的,可代表其真实平均水平。


但如果某模型是从多个备选中“筛选”出来的最佳版本,其观测胜率被人为抬升,导致BT估计的排名 系统性偏高 。


作者在理论上分析了这种“择优发布”对评分计算的影响:


当N个同源模型变体性能存在随机波动且开发者只公布最高分者,相当于对真实分布取了极值,会使所公布模型的Arena评分高于单次抽样的期望值。


这个偏差会破坏BT模型对真实实力的公正评估。


  • Leaderboard Simulation Protocol(排行榜模拟实验):为了量化上述影响,作者设计了一系列模拟实验。


首先,对于私测择优现象,他们模拟一家提供者拥有一组性能分布相近的模型变体,从中随机抽样N个进行Arena对战,然后仅选取得分最高的变体发布。


通过重复模拟,他们观测到随着私测模型数量N增加,被选中的最佳变体的平均最高评分显著上升。


例如,在模拟中测试 N=10 个变体时,最终选出的变体的平均 Arena 评分比只测试一个时约高出100分


(注:Arena评分与 Elo 类似,100分差距并非微小)。这一模拟验证了择优效应会给模型排名带来可观的虚增。


  • 其次,对于数据不对称和潜在过拟合,作者通过控制实验评估训练数据对Arena表现的影响。


他们选取了一个基础大型语言模型,分别用不同比例的Chatbot Arena对战数据进行微调(fine-tuning),再比较这些模型在Arena环境下的表现差异 。


如果在相同模型架构下,加入Arena特定数据训练能显著提升其Arena对话胜率,而对其他任务表现提升不大,则说明存在针对Arena的过拟合。


实验采用了Arena官方发布的一套**“ArenaHard”评测集**来评估模型性能。该测试集由Arena团队提供,据称与真人对战偏好高度相关(相关系数达98.6%) 。


通过ArenaHard胜率的变化,作者量化数据优势带来的收益。


  • 最后,对于模型下架(deprecation)问题,作者建立模拟场景检验其对排行榜稳定性的影响。


他们构建了若干虚拟模型的对战胜率矩阵,并让其中部分模型在评测过程中被移除,观察BT排名的变化。


如果模型移除不当,可能违反BT模型的强连通假设(即每对模型都有经由对战间接比较的路径)。


作者特别模拟了评测任务分布变化的情形:先让一批模型在某类任务上对战并建立排名,然后移除其中部分模型,


再在另一类新任务上继续评测剩余模型,比较最终排名与模型真实实力的偏差。


这模拟了Arena中任务话题随时间迁移、旧模型下线、新模型上线的复杂动态,旨在评估现有排名机制在这种动态环境下的可靠性。


通过以上数据审计、理论推导和模拟实验相结合的方法框架,作者全面评估了 Chatbot Arena 排行榜可能存在的系统性偏差机制。


下面具体看他们的实验设置和结果。


实验设计与结果


作者围绕Chatbot Arena的实际运作,进行了多方面实验来验证他们的假设,包括数据统计分析、模拟实验和真实对战试验等。主要结果如下:


1. 未披露的私测与选择性发布


数据证据:通过对2024年初至2025年初Arena后台数据的审计,作者发现部分厂商频繁利用“私有测试”功能:


平台允许受邀的少数提供者(主要是Meta、Google、OpenAI、Amazon等)同时上传多个匿名模型进行对战测试,


但无需公开这些模型或其成绩,提供者可以选择仅公布其中表现最好的版本 。


统计显示,仅2025年3月一个月内,Meta公司就在Arena主榜中私测了 27 个不同的LLM变体,Google私测了 10 个,Amazon有 7 个之多 。


这些私测活动大多发生在重大模型发布前夕(Meta的Llama 4发布前、Google的Gemma 3发布前),显然是厂商在正式公布前反复试验以挑选最佳模型版本 。


相比之下,中小型团队很少有这样的机会(如有的创业公司仅1个私测模型,许多学术机构在此期间则完全没有私测模型提交) 。


这说明只有少数“特权”提供者知晓并利用了Arena的隐藏私测通道,一般研究者并未享受到同等待遇。


模拟验证:作者通过模拟实验量化了这种“多模型择优”策略对排行榜评分的影响。


他们假设某模型提供方在Arena上可以测试N个性能接近的模型变体,评分取决于对战胜负等随机因素。


提供方只公布其中得分最高的变体(相当于进行N次实验取最大值)。模拟结果显示,随着N增加,被选中模型的期望 Arena评分随之升高 。


仅测试10个变体就能使最高得分比测试1个时平均高出约100分 。可见,允许无限次的私下尝试会系统性地提高该提供方最终公布模型的排行榜名次。


这种提升并非源自模型本身更强,而是得益于运气与筛选,从统计上造成成绩膨胀。理论上,这违背了排行榜算法所需的无偏独立假设,导致评分被系统性高估 。


真实试验:为了进一步证实这一点,作者进行了真实的Arena对战试验。


他们利用自身的Cohere模型,在相同期望水平下构造出多个仅有微小差异的模型版本,同时以私密方式提交Arena对战。


结果发现,即使这些模型实际性能几乎相同,最终仍可能由于对战中的随机波动产生明显不同的Arena评分。


通过选择提交得分最高的那一个,排名相比只提交单一模型显著提升 。


也就是说,哪怕模型没有真正改进,重复提交+择优公布本身就能带来“大幅提升”Arena成绩的假象。


这一实验证明了Arena当前机制下多次尝试所带来的不公平优势:提交多个变体会带来系统性排名好处,这是对未采用该策略的其他参赛者的不公。


2. 数据获取的不对称性


测试次数与抽样率差异:作者发现,Chatbot Arena虽然是社区驱动,但在对战数据的分配上对不同类别模型并不平等。


通过统计各模型参与的对战次数,可以衡量模型获得用户反馈数据的多少。结果显示,专有闭源模型总是获得远高于开源模型的曝光和对战机会。


例如,2024全年各季度中,专有模型占据了 54.3%~70.1% 的全部对战数据份额 ;换言之,超过一半甚至接近七成的用户对战都是在测试大公司提供的闭源模型。


而开放权重和完全开源模型加起来往往不到一半,有的季度甚至不到专有模型的一半 。


这一数据访问不均现象在2024年末达到高峰:统计到2025年第一季度,闭源模型总共获得了约 67.7% 的对战数据,远超开源阵营。


这样的不平衡意味着闭源模型开发者掌握了更多来自Arena的真实用户交互数据,能够更充分地了解模型弱点、调整模型策略。


相比之下,开源模型由于对战机会少,可获取的反馈数据有限,在改进上处于劣势。


更具体地,作者估计了各主要提供者累积获得的用户提示(prompts)数量。


结果令人惊讶:OpenAI 和 Google 两家就各自拿到了约20%的Arena全部对战提示数据 。也就是说,仅这两家巨头可能各自掌握了数十万条用户对话记录。


与之对比,83个开源权重模型加在一起仅占约29.7% 的数据份额 。换算下来,平均每个开源模型仅分到了不到闭源模型平均值的十分之一的数据。


这种悬殊的差距表明:Arena虽然依赖社区免费提供对战数据,但绝大部分数据红利被少数大公司享有 。


这些公司不仅借助社区提升了自家模型,还因为平台机制获得了更多数据,加剧领先优势 。


造成数据不对称的原因有两个方面:


其一,抽样策略的不均。Arena在为用户生成对战时,选择模型的概率并非均等,而是可能偏向高排名或闭源模型,从而形成“强者愈强”的正反馈。


其二,模型下架策略使得许多开源模型在较短时间后被移除榜单,减少了参与后续对战的机会 。两方面共同导致闭源模型累积了远多于开源模型的交互数据。


3. Arena数据导致的过拟合风险


性能提升实验:拥有更多对战数据是否真正转化为Arena排名优势?作者通过模型微调实验予以确认。


他们以一个开源基础模型为起点,分别加入不同比例的Chatbot Arena对战日志数据与原始训练数据混合进行再训练,然后评估模型在Arena偏好上的性能变化 。


评测使用前述ArenaHard数据集(与Arena实际对战高度相关)。结果表明:仅加入少量Arena数据就能明显提升模型在Arena偏好测试上的成绩。


具体来说,未使用Arena数据微调的模型在ArenaHard上的胜率只有 23.5%,


而加入30% Arena数据训练的模型胜率提升到 42.7%,加入70% Arena数据的模型胜率进一步提升至 49.9% 。


%数据时胜率较基线提高了一倍多,相对增幅达到112.3% 。这种大幅提升是在只调整训练数据分布的情况下获得的,并非来自模型架构改进。


这表明:针对Arena对战记录进行微调可以显著“投机取巧”提高模型在Arena环境下的表现 。


然而,作者也测试了这些微调模型在其他非Arena评测任务上的表现,发现提升非常有限(有些任务几乎没有改善) 。


也就是说,利用Arena数据训练得到的收益主要体现在Arena特有的对话偏好上,对模型的通用能力没有明显帮助。


这正是典型的过拟合:模型记住并适应了Arena评测中的偏好和常见问题类型,在熟悉分布下表现卓越,但这种针对性优化不能泛化到不同的数据分布。


作者指出,虽然Chatbot Arena因为不断有新用户提问被视为“动态”评测,不易过拟合,但实际上用户提问分布的变化是渐进的,很多问题会重复出现 。


他们统计发现,每月Arena收到的提示中,有相当比例与前月的提示相似甚至重复(完全重复或轻微改写) 。


因此,掌握了最近的数据就能对下月的测试有针对性优势。


当闭源模型厂商持续获得海量最新对战数据并用于模型训练时,Arena排行榜很可能越来越反映“谁利用了Arena数据进行优化更多”而非“谁的模型在开放领域更优”。


作者的实验定量证明了这一点,揭示出当前Arena机制下模型过拟合于排行榜的风险:


排行榜分数高并不一定意味着模型通用能力强,有可能只是对Arena环境调教得更巧妙 。


4. 模型下架与排名稳定性


Chatbot Arena会不定期将一些模型移出排行榜(deprecate),常见原因包括模型更新换代、性能不再领先或者不再维护等。


然而,作者发现Arena在模型下架方面缺乏透明度和一致标准。


据统计,在公开榜单曾出现过的243个模型中,有205个模型后来被悄然移除了排行榜,而Arena官方明示为“已弃用”的模型只有47个 。


也就是说,有84%的模型被移除时并未公示或记录在官方deprecated列表中。


这些“静默移除”的模型绝大多数属于开放权重或开源模型——作者发现在被悄然移除的模型中,约66%是开放模型 。


相反,闭源模型更少被撤下榜单,大多持续参与对战。


开放模型频繁下架进一步加剧了前述数据不平衡,也使它们即便性能提升了也无从重回榜单与闭源模型竞争,排名自然被淘汰出局。


更严重的是,作者指出模型的频繁下架会影响排行榜算法的可靠性。Arena的Bradley-Terry排名计算假设模型集合相对固定并通过互相对战建立全局评分。


如果大量模型陆续被移除,特别是那些曾与现有模型有过交锋的记录被舍弃,可能违反BT模型关于比赛图连通性的假设。


作者通过模拟演示了这种情况:当某些模型在第一阶段任务中表现较弱而被移除后,后续第二阶段任务中剩余模型之间的相对排名可能发生反直觉的变化。


因为被移除模型曾扮演评价基准的角色,其删除会扭曲幸存模型之间原本的胜负关系估计。


总而言之,大量静默下架导致排行榜缺乏历史一致性,也让当前排名难以与过去成绩直接比较。


这种情况下,排行榜的可信度降低,用户可能无法确定榜上名次是否因为真实实力改变,还是由于部分对手被撤下所致。


作者强调,由于目前Arena并不会通知模型提供者他们的模型被移除了(许多团队可能直到发现自家模型长时间未出现才察觉),


这种不透明做法对开源社区尤其不友好 。


它既打击了开源贡献者的积极性,也让排行榜存在“幸存者偏差”,即仅剩的模型都是未被移除的特定类别模型,从而进一步巩固了少数提供者的垄断地位。


这同样被作者视为“Leaderboard Illusion”的一部分:排行榜上的名字消失有时并非因为新模型真的超越了旧模型,而可能只是旧模型被静 quietly “请出”排行榜所致。


关键发现与核心贡献


通过上述分析,论文揭示了Chatbot Arena排行榜存在的系统性问题,并提出了若干核心发现和贡献:


  • 隐蔽的私测与成绩筛选机制:作者首次公开了Chatbot Arena中存在的未声明政策——允许某些提供者私下测试多版本模型且择优发布。


这一机制被证明会系统性地提高这些提供者模型的排名,从而破坏排行榜的公正性 。


这一发现揭露了Leaderboard运作中人为干预的一面,提醒社区不要盲信排行榜分数表面上的客观性。


  • 数据访问的不平等加剧了排行榜垄断:论文量化了闭源模型开发者相对于开源社区在Arena获取数据上的巨大优势 。


少数大厂模型获得了远超开源模型的用户对战数据,占据社区免费劳动力的大头。


这一不平衡被作者认为助长了排行榜成绩的两极分化,


即大公司模型凭借数据红利巩固领先地位,与社区模型的差距不断扩大,而非一定因为其基础模型架构有压倒性优势。


  • 过度依赖榜单导致定向过拟合:作者通过实验证明了Leaderboard驱动的过拟合现象:


针对Arena平台进行微调可以显著提高模型Arena排名,却几乎不提升乃至损害其在其他任务上的泛化性能 。


这说明当前排行榜分数已部分反映了针对评测本身的优化,而非模型普适能力的提高 。


这一发现印证了Goodhart定律在AI评测中的表现形式,提出了对排行榜成绩成色的质疑:高分模型是否真正更强,还是更会“刷分”。


  • 模型存续偏差与排名可靠性问题:作者揭露了Arena中模型下架策略的不透明以及对开源模型的偏弃。


  • 大量模型被静默移除且以开放模型为主 ,导致排行榜呈现出的模型池并不完整,破坏了排名的可信度和历史连贯性。


作者将此视为排行榜的又一“幻觉”来源:排名的变化可能源自参赛池改变,而非模型性能变化,但观众却往往不了解幕后这一层动态


  • 评测平台公平性的新思考:综合上述发现,论文提出当前排行榜机制中存在偏向少数提供者的系统性措施,


这些措施共同作用扭曲了最终排名,即论文标题所谓“Leaderboard Illusion”。


作者的贡献在于系统性地揭穿了这些隐患,并非针对某一家公司的个例批评,而是从机制层面质疑了当前AI排行榜范式的透明度与公平性。


这一工作为社区敲响警钟:需重新审视我们衡量“最先进模型”的方式是否真正客观可靠。


局限性与开放问题


尽管本研究详实揭示了Chatbot Arena的诸多问题,但作者也坦承其局限,并指出了未来值得探索的方向:


  • 研究范围局限:本工作聚焦于Chatbot Arena这一平台及其中的文本对话模型排行榜。


结果是否适用于其他评测平台(如不同任务的排行榜、Kaggle竞赛、乃至学术基准)需要进一步验证。


不同平台可能有各自的规则和生态,排行榜幻觉的表现形式也许有所不同。未来研究可对比多个AI排行榜,检验是否存在类似的选择性公布和数据不平等问题。


  • 数据与策略时效性:作者的数据截至2025年4月,之后Arena若做出政策调整(例如公开私测规则或均衡抽样),情况可能有所改善。


本研究揭示的问题在当时具有代表性,但技术和社区规范在快速演变。


未来工作应持续跟踪评测平台的新动向,例如有无引入新的排名算法、开放更多数据访问、限制私测次数等,并评估这些改变是否缓解了排行榜幻觉。


  • 深层次原因分析不足:论文主要从现象层面揭示了问题,但对为什么Arena会采取这些不透明政策着墨不多。


这其中有商业考量(大厂对排行榜的影响力)、技术权衡(榜单算法复杂性)等因素。


未来研究可以从机制设计角度深入探讨:为何会允许私测?为何抽样不均? 是无心之失还是有意为之?这些问题的答案将有助于对症下药地改革评测平台。


  • 开放社区视角下的改进方案:作者虽然提出了一些建议(详见下节),但在学术论文中受限于篇幅,未深入讨论其可操作性和潜在副作用。


例如,限制每家提供者私测模型数量是否足够?或者公开全部对战数据给社区是否可行,会否引发隐私或滥用问题?


这些都是后续实施中需要考虑的细节挑战。如何在开放性和公平性之间取得平衡,是未来值得研究的问题。


例如,有学者提出引入随机对照评测多榜单并存的方案,以降低单一排行榜的操纵空间,这些都可进一步验证。


  • 作者利益相关声明:值得注意的是,作者团队中有成员来自Cohere等机构,他们本身也是Chatbot Arena的参与者和受影响方。


虽然作者在附录中声明了这一点,以保证客观性,但毕竟“既当运动员又当裁判”的角色可能影响研究视角。


这并非论文的技术缺陷,但提醒我们未来希望看到更多独立团队对排行榜问题进行审查复现,以确保结论的可靠性和广泛适用性。


总的来说,本研究的局限反映出评测排行榜作为新兴事物,其复杂性超出了简单技术范畴,牵涉社区协作、平台治理等问题。


排行榜幻觉的提出为我们揭开了一角帷幕,但如何彻底理解和消除这种幻觉,还有许多开放课题等待探索。


启发与反思


《The Leaderboard Illusion》一文对AI社区和评测平台的实践有着深刻启示,促使我们反思当前的科研评估风气:


首先,这项研究凸显了透明、公平的评测机制对于科研生态的重要性。


Chatbot Arena本意是汇聚群智、推动开源,但如果规则不透明、资源向寡头倾斜,最终将伤害社区信任。


排行榜原本应该是激励创新的工具,但当少数参与者能够利用规则漏洞攫取不正当优势时,排行榜就异化成了游戏排行榜——


模型研发变成了围绕评分机制的投机竞赛,而非真正技术进步的竞赛。


当下大型模型研发耗费巨大资源,如果评价体系失灵,学界和业界可能被错误的指标牵引,投入到无效甚至有害的方向。


其次,研究提醒我们要警惕“唯排行榜论”。在今天的AI舆论中,某模型登顶某榜往往会被解读为重大突破。但正如作者所示,这种榜首光环可能是幻觉。


我们应当更加注重全面客观的评测:不同任务、不同数据集上的综合表现,而非迷信一个数字。


特别是对于封闭的商业模型,更需独立验证其实际能力,而不能只看厂商选择公布的成绩。


第三,本工作对开放科研和社区贡献也有反思意义。Chatbot Arena依赖无数匿名用户贡献对战数据,这本是开放科学的力量。


然而当前机制下,这些社区数据更多地滋养了闭源模型。开源社区如何更好地利用自身贡献、避免成为他人的免费测试工具,是值得思考的议题。


或许需要在平台规则上保障开源参与者的权益,例如定期公开对战数据给开源项目,或者设置开源榜单,避免与商业模型直接竞争,从而营造更良性的开发环境。


最后,论文提出了改进评测平台的具体建议,对Chatbot Arena以及类似平台具有现实指导意义。


例如,作者建议限制同一提供者同时进行的私测模型数量(如最多允许3个),防止利用海量试错来刷分 ;要求所有提交的模型结果透明化,避免选择性公布;


在对战模型抽样上进行校正,使不同来源模型有均等的展示机会;定期公开(或至少分享给研究社区)累积的对战数据,减少数据垄断;


以及明确模型下架机制,及时通知并公布下架名单 。这些措施如果落实,将有助于恢复排行榜的公正和可信度。


更广泛而言,AI社区或可成立独立委员会来监督重要排行榜,制定行业准则,确保评测竞争良性健康。


综上,《The Leaderboard Illusion》为我们揭示了AI排行榜繁荣背后可能被忽视的阴影。


它提醒科研工作者与平台维护者:评价指标需要慎用,防止被优化目标绑架;开放共赢应是原则,避免少数人侵占公共资源;


同时不断反省改进评测方法,以追求真正有意义的进步。随着AI技术的发展,评测手段也必须与时俱进。


相信在社区的共同努力下,我们能设计出更公平透明的评测机制,让排行榜真正反映技术的实质进步,而非幻象。


写在最后


一个非常有趣的点是,Chatbot Arena 官方在这篇论文发表后,针对这些质疑,做出了回击。


OpenAI和Google正在玩一个99%的人都不知道的游戏


大致意思就是,官方否认了存在不公平的存在,每个公司都可以根据自己的需求选择提交多少个模型及变体。


如果某个公司选择提交更多的模型测试,这并不意味着其他公司的模型被不公平的对待。


同时,官方也指出了研究中存在着的一些错误,认为论文中的一些模拟方法,数据都是有问题的;


官方同样也澄清了它们的政策,并且强调这些政策都是早就公开的等等。


总而言之,就是论文当中提到的主要论点,都被一一反驳了。


不管怎么说,我认为,


在 AGI 加速到来之前,每个大模型的使用者,都应该建立属于自己的 benchmark~


文章来自于微信公众号“BubbleBrain”,作者 :DylanDDeng


OpenAI和Google正在玩一个99%的人都不知道的游戏

关键词: AI , openai , 谷歌AI , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0