百度最强模型来了!五大场景深度实测,搜索能力突出

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
百度最强模型来了!五大场景深度实测,搜索能力突出
8159点击    2026-05-09 21:29

百度最强模型来了!五大场景深度实测,搜索能力突出


在百度文心内部评测中,文心5.1的创意写作能力接近Gemini-3.1 Pro。


智东西5月9日报道,今日,百度推出新一代基础模型文心5.1。百度称,文心5.1将总参数压缩至约1/3、激活参数压缩至约1/2,使用业界同规模模型约6%的预训练成本,实现同级别模型基础效果领先。不过,百度并未明确说明这一“6%成本”的具体对标模型范围与口径。


在LMArena 5月7日更新的文本生成大模型排行榜中,文心5.1全球总排名第14。与前面OpenAI、xAI的模型相比,得分存在微小差距。


百度最强模型来了!五大场景深度实测,搜索能力突出


▲图源:LMArena官网


文心5.1在Agentic、知识、推理、指令遵循能力测试中,与DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro展开了横向性能对比。


Agentic能力测试中,文心5.1工具调用数学推理能力表现不错,得分略低于Gemini-3.1 Pro排名第二。多轮工具协作交互能力弱于Claude-Opus-4.6居于第二位,与另外两个模型能力差距较小。


在深度搜索Agent任务中,文心5.1较其他三款模型仍有差距,电子表格工具操作仅领先DeepSeek-V4-Pro,大幅落后Claude-Opus-4.6与Gemini-3.1 Pro。


百度最强模型来了!五大场景深度实测,搜索能力突出


▲图源:百度文心公众号


知识、推理、指令遵循能力测试中,文心5.1整体处于中等水平。高阶学科知识推理(GPQA)和复杂指令遵循(AdvanceIF)表现较好,仅次于Gemini-3.1 Pro,领先另外两款模型。


纯数学推理(AIME26)和通用知识问答(MMLU-Pro)在四款模型中均排名末位,与头部模型差距相对明显。


百度最强模型来了!五大场景深度实测,搜索能力突出


▲图源:百度文心公众号


此次文心5.1推出距离文心5.0正式版上线已时隔三个多月。文心5.1模型发布时,登顶LMArena榜单里国内大模型搜索能力榜首位。


百度最强模型来了!五大场景深度实测,搜索能力突出


▲图源:百度文心公众号


实际评测中,我们从创意写作、数学推理、信息整合、电子表格操作、编程能力五个维度对文心5.1模型进行了综合体验。


其中,创意写作与电子表格数据分析我们均采用文心5.1思考模型进行二次实测。相比文心5.1快速模型,思考模型产出的内容叙事风格更有质感、情感调性更细腻自然,也未出现基础性逻辑与文字错误;在表格数据分析任务上,思考模型的整体表现同样更出色。


文心5.1对概率题的解答步骤严谨、答案准确;面对开放式模糊需求,能自主拆解任务、输出表格对比和场景匹配,信息整合能力不错;但在编程场景中短板突出,生成的代码无法正常运行,实用编程能力仍有欠缺。


文心5.1模型的体验链接为:


https://yiyan.baidu.com


以下是我们的完整体验过程:


五大场景实测:文心5.1创作、


数理、办公、科普能力全面验证


案例一:创意写作能力测试,考察文心5.1故事架构与文学创作能力


针对文心5.1的创意写作能力,我们首先用文心5.1快速模型进行了测评。


指令一:请为一个悬疑故事写出前三章大纲,每章150字左右。


百度最强模型来了!五大场景深度实测,搜索能力突出


总体来看这个悬疑故事的大纲挺完整,叙事结构比较规整,逻辑层次也清晰。人物行动动机比较合理,线索设置具象可落地,最后的身份反转颠覆感比较强,伏笔呼应也相对完整。不过,与现在市面上的流行的悬疑推理小说还有一定差距,对于模型本身来讲,这个水准还不错。


而后我们用相同的指令,对文心5.1思考模型进行评测。


百度最强模型来了!五大场景深度实测,搜索能力突出


可以看到,第二篇在切入点、恐怖感上更有新意。对于短篇惊悚故事,这篇的“循环替身”更适合直接收尾,有《恐怖游轮》的循环压迫感。不过普通租客为何能查物业记录这一点可能是个bug。


我们接着让文心5.1快速模型写了一篇科幻类型的微小说。


指令二:写一篇500-600字的科幻微小说。


百度最强模型来了!五大场景深度实测,搜索能力突出


这篇科幻小说篇幅把控精准,叙事结构完整闭环,人物情感刻画比较细腻,整体文字流畅、故事完成度也挺高。但这个叙事框架比较常规,同时出现了人物身份混乱,比如文章主角之一是“爸爸”,可在中间的对话中却说成了“妈妈”。


对于常读同类科幻故事的读者来说,剧情走向和结局伏笔可能略显套路化,缺少出人意料的设定创新。


相同的科幻微小说指令也给了文心5.1思考模型


百度最强模型来了!五大场景深度实测,搜索能力突出


可以看到,这一篇也是围绕“意识上传”这一经典科幻母题展开的。不过两篇文章在叙事重心、情感落点、科幻设定和审美取向上存在明显差异。比第一篇更好一点的是,这一篇没有出现明显的人设混乱问题。


从情感共鸣和叙事感染力看,第一篇相对更好。从科幻构思的新颖度和哲学深度看,第二篇略胜一筹。


案例二:给高考数学题,看它能不能按步骤算明白


用户在使用AI解决数学问题时,痛点比较明确:怕AI没有逻辑硬算,也担心AI编造解题步骤和错误答案。


于是,我给了文心5.1一道2025新高考一卷的上数学题,看它是否能真正解决用户遇到的数学问题。


题目为:一个箱子里有5个球,分别以1~5标号,若有放回取三次,记至少取出一次的球的个数为X,则E(X)为?


百度最强模型来了!五大场景深度实测,搜索能力突出


文心5.1给出了完全正确的解答,无论是使用指示变量法,还是用分布法进行交叉验证,都步骤完整,并且结果准确。


案例三:问两款大模型怎么选,看它能不能替普通人做信息整合


普通用户可能不会区分主流大模型强弱,也不知道按自身场景该怎么选用。对标文心5.1官方Agent能力里T³-bench多轮工具协作、深度信息检索整合的核心维度,我们抛出模糊需求,看看文心怎么解答。


问题为:我想了解DeepSeek-V4-Pro、Claude-Opus-4.6到底各有什么强项和短板,普通人该怎么选、各自适合拿来干什么。


百度最强模型来了!五大场景深度实测,搜索能力突出


可以看到,文心5.1的整体回答表现优秀。首先能够自主拆解任务逻辑,无需人工指引,自发多维度逐层解释对比,信息维度全面且细分精准,体现出不错的信息检索与归纳能力。


同时贴合了普通人使用习惯,做成表格对比、场景匹配、分人群推荐,最后还点明两款模型的隐藏短板和使用误区,给到务实的组合使用建议。


案例四:电子表格与职场数据分析能力测试


职场运营、门店管理、电商运营日常高频刚需就是员工绩效统计、数据筛选、业绩排名、均值分析,常用到的是Excel表格来进行办公。于是我们测试了文心5.1快速版本的电子表格工具操作能力。


需求为:我是门店运营,统计了本店10名销售人员的当月个人成交业绩:12.3万、18.6万、9.2万、25.8万、16.5万、11.8万、20.4万、8.7万、22.1万、14.6万。


你按照Excel分析数据帮我处理:整理成规范员工业绩数据表,计算全员业绩平均值、中位数,筛选出业绩高于平均值的优秀员工,最后结合整体数据做简单的团队绩效分析。


结果是,文心5.1在这个电子表格操作以及数据分析任务中,完成度挺高。不过没有将所有数据放在一张表格里。


于是我们继续给出指令:帮我做成一份直观的Excel表格,包含所有数据,同时可复制。文心5.1给的反馈比最初更精简了,但指令“一份”可能给该模型带来了理解误差。


于是我们再调整指令为:把这些数据仅用同一张表格来显示。


百度最强模型来了!五大场景深度实测,搜索能力突出


最后,文心5.1给出的结果还不错,虽然官方测试中表格操作能力排名靠后,但在文本形态的职场数据分析场景里,实际体验并没有特别差劲,能完成基础需求。


该模型结果输出比较磕绊,于是我们用相同的指令测试文心5.1思考模型。结果显示,这次模型输出的第一份结果更为简洁规范,并且更为清晰直观。与文心5.1快速模型第三次输出的结果几乎一样。


案例五:


我们使用文心5.1思考模型,让它制作了一个大型沙盒游戏与小型跑酷游戏。


指令一:制作一个单文件HTML的3D横版格斗游戏,场景为被霸天虎入侵的破败城市地图,敌人为类人型赛博坦机器人,包含武器后坐力效果,采用低多边形风格并带有卡通美学。游戏开始时,玩家位于街道上,周围有建筑废墟;游戏中应包含可被击倒的细节物品,如汽车、树木、石块/瓦砾和自动售货机。玩家可以选择5种擎天柱阵营角色进行游戏,并与5种霸天虎变种敌人战斗,这些敌人会不断生成,游戏为无限时间的沙盒模式。


百度最强模型来了!五大场景深度实测,搜索能力突出


文心5.1思考模型针对该指令生成了700余行代码,但实际运行时,该游戏能够正常打开,但界面出现两个遮挡bug,也没法对游戏里的敌人进行攻击,无法操作。


指令二:制作一个单文件HTML的横版跑酷游戏,不依赖外部资源。主角是一名未来都市快递员,在霓虹城市屋顶之间不断前进。游戏采用低多边形风格,整体偏明亮卡通美术。


要求:


-玩家可进行跳跃、二段跳和下滑


-地图自动向前滚动,包含屋顶缺口、广告牌、电箱、无人机等障碍


-路上有可收集的能量电池和金币


-玩家可以拾取临时道具,例如护盾、加速和磁铁吸附


-敌人为巡逻无人机和机械警卫,碰撞后会扣血-分数根据生存时间、移动距离和收集物计算-淑戏失败后可重新开始


-需要有开始界面、暂停功能和简单UI(血量、分数、速度)


-所有内容写在一个HTML文件中,代码可直接运行


百度最强模型来了!五大场景深度实测,搜索能力突出


针对第二个指令,该模型耗时3分钟生成600余行代码,但无法打开,界面一片漆黑。可见,该模型在复杂游戏编程与代码可运行性上仍存在明显短板。


弹性训练实现降本


架构与后训练流程同步革新


文心5.1是在文心5.0基础上进一步优化得到的版本。它没有从头重新训练,而是从文心5.0训练好的子模型矩阵中,挑出一个效果最好的子结构直接使用,因此降低了预训练成本。


其背后的主要技术更新,是一套叫Once-for-All的弹性训练方法


传统做法想适配不同规模的模型,得分别预训练好几次;而文心5.0只在一次预训练里,通过动态采样同时优化大量不同尺寸的子模型,最终形成一个覆盖多种参数规模、不同计算成本的子模型矩阵。


也就是说,这套方法让文心5.1在训练阶段就把不同模型一次性准备好,上线时直接挑一个最合适的来用,不用每次重新练。


基于上面的弹性训练方法,文心5.1在参数和成本上的实际变化如下:


1、总参数量压缩到文心5.0的1/3左右;2、激活参数量压缩到约1/2;3、预训练算力成本仅为同规模业界模型的6%。


相比文心5.0,文心5.1推理成本明显下降,同时在同参数规模下,预训练模型效果在同规模模型中表现更佳。


百度最强模型来了!五大场景深度实测,搜索能力突出


▲文心5.0弹性训练示意图(图源:百度文心公众号)


此次更新,文心5.1在其训练方式上做了三方面改动:


首先是分离式架构。以前训练、推理、奖励计算、智能体循环四个环节耦合在一起,一个环节慢了会拖累整个系统。


现在百度将它们完全拆开,各自独立部署、独立扩缩容。比如推理算力不够就只扩推理,不用动其他模块。各模块之间通过高性能网络传数据,控制流和数据流分开,流水线可以重叠执行,训练整体耗时更短。


其次是FP8训推方面。由于模型训练时和推理时用的精度不一致,会导致效果下降,尤其在MoE结构里路由偏差更明显。


于是文心5.1用了统一FP8低精度算子库,并对Rollout Router Replay技术做了优化。结果是在开启该技术后,训练推理耗时几乎没有增加,但关键指标KL散度下降50%,训练更稳定。


最后是异构弹性调度方面。集群里会存在很多CPU算力闲置,文心5.1把这些CPU统一池化,用来跑代码沙箱、验证器这类逻辑计算密集但不需要GPU的任务。提升了资源利用率,也缩短了训练迭代时间。


传统大语言模型的后训练是串行流程:先做监督微调(SFT),再做多阶段混合强化学习。


这种方式存在两个问题:一是慢,一个阶段等一个阶段拖慢整体迭代;二是能力会“打架”,想在一次训练里同时提升代码、推理、对话等多个能力,往往提升一个另一个就下降。


文心5.1的做法是把专家训练和能力融合拆开,分四步走:


第一阶段统一SFT。先用高质量的多领域指令数据做一次基础微调,让模型具备基本的指令遵循和工具调用能力,作为后续能力扩展的起点。


第二个阶段,并行训练多个领域的专家模型,比如对代码、推理、智能体等方向分别独立训练。每个方向用自己专属的奖励信号和算法,互相不干扰。


第三个阶段是在线策略蒸馏(OPD)。把上一步训练好的多个专家模型当老师,统一SFT模型当学生。学生按照自己的策略采样,通过token级KL方法同时学习多个老师的能力,把不同专家的能力融合进同一个模型里。


最后是通用在线强化学习。并不是所有任务都适合用蒸馏来融合,比如开放式聊天、创意写作这类高熵分布的任务,蒸馏反而效率低,输出会变得过于平滑。所以这类任务不做蒸馏,而是在蒸馏后的模型上单独做在线强化学习,保证对话多样性、指令遵循能力和人类偏好对齐。


可以简单总结为,代码、推理这类确定性强的能力,通过蒸馏从专家模型融进主模型;聊天、写作这类需要多样性的能力不适合蒸馏,单独做强化学习。两套方式配合,既缩短了训练周期,又避免了能力互相拖累。


百度最强模型来了!五大场景深度实测,搜索能力突出


▲文心5.1后训练Pipeline示意图(图源:百度文心公众号)


在百度文心内部评测中,文心5.1的创意写作能力接近Gemini-3.1 Pro。此前文心5.0系列模型已多次登上LMArena文本榜和视觉理解榜,稳居国产模型第一梯队。


结语:低成本实现性能追赶


能力尚有提升空间


文心5.1最引人注目的不是某一项能力的跃升,而是它试图回答的问题,能否用更低的训练成本,换来接近头部模型的综合水准。


从百度文心披露的数据看,在知识推理、指令遵循和创意写作上,它确实站到了同量级模型的第一梯队;但在工具调用深度、电子表格操作和纯数学推理上,与Claude-Opus-4.6、Gemini-3.1 Pro等模型之间仍存在可量化的差距。


从实际体验来看,文心5.1在数学题解答、生活化知识科普等面向普通用户的场景中表现比较稳定,信息整合和逻辑拆解能力也可圈可点。创意内容存在套路化问题,高阶表格办公能力相对偏弱,部分场景需要反复调整指令才能达到理想效果。


纵观行业,主流模型逐渐呈现能力差异化、使用场景分层化的发展趋势。对普通用户而言,成熟的基础模型能够降低内容创作、问题解答、数据整理的门槛,提升日常使用效率;对技术厂商而言,低成本、高性能的迭代方案,也将为国产大模型轻量化落地、规模化应用提供了可行路径。



文章来自于微信公众号 "智东西",作者 "智东西"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner