国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
5336点击    2025-08-20 16:07

顶级大模型性能确实很强,但对于预算不高的用户来说就是:


你很好但我不配。


虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。


为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。


国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能


该方案集成了8个行业领先的大模型,并在Human Last Exam、GPQA-diamond、ARC-AGI等6个挑战性数据集上取得了优秀成绩:


1.性能新高:Avengers-Pro的最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%。


2.极致性价比:Avengers-Pro能以降低27%成本的方式,达到与GPT-5-medium同等的顶级性能;更能以仅19%的成本,获得Gemini-2.5-Pro同等的性能水平。


3.帕累托最优:相比单个模型,Avengers-Pro在任何给定成本水平下都能实现最高准确率;反之,针对任何指定的准确率目标,也能将成本降至最低,实现了性能-成本平衡的帕累托最优解。


国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能


来看看是如何做到的。


比GPT-5更强,更便宜


研究背景:大模型的智能调度路由


如何平衡大模型的性能表现和推理成本是大模型领域的关键问题。


在已经被优化到极致的大模型系统的基础上进一步提升性价比的挑战性不言而喻。


为解决这一问题,大模型智能调度路由应运而生。其核心思想是将不同任务分配给最适合的大模型,以提升模型回复质量,同时避免”大炮打蚊子“而产生的资源浪费。


OpenAI在最新推出的GPT-5中,首次在商业模型中引入的多模型调度路由机制:


在推理阶段,系统会根据任务特性和用户需求,动态切换低成本低性能模型与高成本强推理模型,实现性能与成本的灵活平衡。


这表明GPT-5会通过一个实时的路由器(Router)来动态决策,可以在保证绝大多数问题得到高效解答的同时,将复杂、困难的推理任务交给能力更强的模型处理,从而在系统层面实现性能与陈本的最佳平衡。


Avengers-Pro多模型调度路由方案则是对GPT-5多模型调度路由机制的进一步拓展。


Avengers-Pro: 兼顾性能与成本,推动降本增效


Avengers-Pro实现了对不同性能与成本的大模型进行统一集成与调度路由,为性能与成本的权衡提供了一站式解决方案,有效推动了大模型的降本增效。


其核心机制是通过对用户请求进行嵌入(embedding)和聚类(clustering)分析,动态匹配并分配最适合的模型来处理不同任务


只需依靠少量用户请求-答案标签数据,Avengers-Pro框架主要包括以下三个核心步骤:


1.嵌入 (Embedding): 首先,该框架使用文本嵌入模型将用户请求转换成高维向量,捕捉其深层语义信息。


2.聚类 (Clustering): 接着,该框架将这些语义向量进行聚类,将相似的问题或任务归为一个团簇。这使得系统能够理解不同类型任务的共性,例如“物理知识问答”、“网页制作代码生成”等。


3.评分(Scoring): 该框架会预先在每个聚类所得到的团簇(即每类任务)上评估模型池中所有模型的性能和成本。基于一个可调节的性能-成本权衡参数α,系统为每个模型在个团簇上计算一个性能-成本综合评分。


推理时,Avengers-Pro框架会首先将其归类到最相关的聚类中,并结合各模型在该聚类上的性能-成本综合评分,将请求动态分配给得分最高的模型。

通过调整参数α(范围在0到1之间),系统可以在追求极致性能(α=1)与极致性价比(α=0)之间灵活切换,满足不同应用场景下对性能与成本的多样化需求。


实验表现:Avengers-Pro比GPT-5更强,更便宜


在实验中,Avengers-Pro集成了来自4个厂家的8个业界顶尖模型:


1.OpenAI:GPT-5-chat, GPT-5-medium;


2.Anthropic:Claude-4.1-opus, Claude-4-sonnet;


3.Google:Gemini-2.5-pro, Gemini-2.5-flash;


4.阿里: Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。


评测场景由6个极具挑战性的数据集组成: GPQA-Diamond, Human’s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ2-bench,覆盖了代码生成、科学推理、智能体应用等。


Avengers-Pro的整体性能优于任意单一模型。当权衡系数倾向于追求性能时,Avengers-Pro的平均正确率为0.66。


相比之下,模型池中最强的单一模型GPT-5-medium的平均正确率为0.62。也就是说,Avengers-Pro即使与当前性能最强的单模型对比,仍然实现了7%的性能提升。


Avengers-Pro实现了性能-成本平衡,形成了帕累托前沿。通过灵活调整性能-成本权衡系数,当Avengers-Pro与GPT-5-medium性能持平时,能够节省高达27%的成本。


如果仅需达到GPT-5-medium 90%的性能,成本更是可降至仅37%。


而在追求与Gemini-2.5-Pro相当的性能时,Avengers-Pro甚至只需19%的超低成本即可实现。


并且,Avengers-Pro在任何给定的成本水平上,都能提供最高的准确率;反之,对于任何给定的准确率目标,都能将成本控制在最低。


国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能


性能-成本权衡系数的影响:


对性能-成本平衡系数的分析显示,随着系数从0逐渐提升到1(追求性能),模型的性能和成本均逐步上升。


国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能


模型选择:


在不同的性能-成本权衡系数下,Avengers-Pro能够根据不同模型的性能成本灵活进行任务分配。


当系数更倾向于成本时,Qwen族的模型由于其较低的成本会被更多选择。


而当系数更倾向于性能时,GPT-5-medium这一性能相对较强的模型会被更多选择。


在集成了多个大模型后,调度路由能实现大模型的降本增效:在性能上超越了模型池中最强的单一模型,并且在保证相同性能的情况下,能显著降低成本。


此外,面对不同的性能与成本权衡需求,可针对不同任务,灵活自动选择最合适的模型,全面满足多样化的应用场景。


Avergers-Pro证明了在当前大模型生态下,智能调度路由方案的突出表现和巨大潜力。


智能路由理念也将在未来大模型应用中带来更多突破与惊喜。


论文地址:https://arxiv.org/abs/2508.12631


GitHub地址:https://github.com/ZhangYiqun018/AvengersPro


文章来自于微信公众号“量子位”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI