RAG天花板!从0到1打造商用Agent【喂了1G资料】

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
RAG天花板!从0到1打造商用Agent【喂了1G资料】
6166点击    2025-07-16 11:00

大家好,我是袋鼠帝。


最近有一件挺有意思的事,时间拉回到6月底,我收到了一个官方邀请,来自百度。


邀请我去北京总部,参加一个关于他们百度智能云千帆应用开发平台(Agent平台)的闭门交流会。


主要是体验千帆内部新版本,以及业务功能的深度交流。


顺便以开发者的视角提了一些小建议~


当然,在去北京之前,我特意把千帆深度体验了一遍


在某些功能点上,百度智能云千帆还是给了我不小的惊喜。


特别是他们家的RAG(知识库)甚至可以说是目前市面上同类产品里的"天花板"级别了。


是目前我用过最强、最全面的RAG!


我当时就想,这个能力绝对值得我单独写一篇长文来好好聊聊。


分享当天,他们就官宣了一次版本更新,把我之前惊喜的RAG能力又加强了,还顺带优化了一堆新功能。


以至于后面有朋友问我知识库问答推荐什么工具,我这次也是毫不犹豫就推荐了百度智能云千帆的知识库。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


好了,话不多说


接下来带大家从0到1搭建一个客服Agent,实操体验一下


从0到1打造一个商用「猫舍客服Agent」


起因很简单,我女朋友开了个在线猫舍-ByteMeow的猫,对,就是在线卖猫的。


从小红书引流到微信(私域),每天来咨询的人也不少,问题也是五花八门:


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


这些问题,80%都是重复的,大部分是猫咪后续的一些健康问题。


随着找到家长的猫咪越来越多,我女朋友每天光是回复这些,就耗费了不少精力。


本来我是想用Fastgpt来搭建的,但是在第一步,数据预处理它就翻车了,上传的PDF文件解析过后,数据完全丢失了,导致知识库里面毛都没有...


所以,我决定还是借助百度智能云千帆的知识库能力,帮她打造一个不知疲倦、7x24小时在线、而且知识水平堪比专业兽医的猫舍AI客服。


>/ 1. 构建猫舍知识库


一个好的AI客服,首先得有适合的"知识"。


她在闲鱼买了三本非常权威的宠物医疗和行为学书籍的电子版(PDF),准备把它们作为这个AI客服的核心知识库:


RAG天花板!从0到1打造商用Agent【喂了1G资料】


我们登录千帆的控制台


https://console.bce.baidu.com/ai_apaas/dialogHome


创建->知识库


RAG天花板!从0到1打造商用Agent【喂了1G资料】


先给知识库起个合适的名字


向量模型可以选择下图默认的多语言向量模型


RAG天花板!从0到1打造商用Agent【喂了1G资料】


整个界面非常清晰,你可以选择不同的底层资源


我直接选择他们推荐的VectorDB


点击创建免费资料


RAG天花板!从0到1打造商用Agent【喂了1G资料】


接下来就是导入知识文件,我的是本地PDF文件,所以直接选择文本文档数据->本地上传


RAG天花板!从0到1打造商用Agent【喂了1G资料】


随即把我的PDF资料拖上去,由于PDF最大支持500M(已经很大了),


但是我有一个700多M的文件,所以我把它拆分了一下(搜索引擎搜索PDF拆分,有很多免费工具)。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


上传只是开始,真正牛逼的地方在下一步:数据预处理和切片。


这也是我愿称之为"天花板"的原因之一。


用过其他RAG平台的同学可能知道,知识库效果不好,很多时候是文档解析和切片没做好。


比如PDF里的表格、图片文字识别不出来。长文档被粗暴地切分开,导致上下文丢失等等。。


而在千帆这里,这些问题几乎都有最优解。


千帆知识库(下图)有超多解析策略,除了常规的文字提取,还支持图片文字识别(OCR)和版面分析。


甚至还有公式解析(利好带公式的知识文件)、表格深度解析(利好表格文件)、文档图表解析(解析带图表的文件)


RAG天花板!从0到1打造商用Agent【喂了1G资料】


这意味着,就算你的PDF里有复杂的图表、图片,它也能精准地把里面的文字抠出来,最大程度保留完整的信息。


我的PDF里面主要是图文,所以我选择了图片文字识别、版面分析、文档图片解析这三种。


这用起来就是方便,几乎任何形式的文件,都不需要自己去做额外的数据预处理了。如果我用Fastgpt的话,这些PDF我还得先拿到别的平台转成md或者txt...否则根本解析不了


切片策略一般情况默认即可


知识增强最好全部勾选!!


能够提高召回成功率(回答问题更精准)


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


最后点击确认创建


会跳转到下面这个页面,平台自动在后台进行解析、切片、向量化,几乎什么都不用操心,一键搞定,对新手也极其友好。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


由于文件特别大,处理起来也不会太快,整整处理了80多分钟


直到都变成可用状态,就ok啦~


RAG天花板!从0到1打造商用Agent【喂了1G资料】


>/ 2. 创建Agent


知识库准备好之后,我们来创建Agent(智能体),把它和知识库关联起来


创建->自主规划智能体


RAG天花板!从0到1打造商用Agent【喂了1G资料】


「知识库」这里可以添加我们刚才创建的猫舍知识库


RAG天花板!从0到1打造商用Agent【喂了1G资料】


「高级配置」,可以对知识库的一些参数进行调优。


默认配置如下图,我们就先不改,直接用默认的


RAG天花板!从0到1打造商用Agent【喂了1G资料】


如果需要联网功能,可以把下面的网页搜索增强开启,我这里需要测试知识库问答效果,所以就先不开启。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


而且还有扩展上下文信息(可以提高检索准确性)和知识库组件描述(设定某些问题才检索知识库回答),可以说细节拉满了。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


关联好知识库,我们需要给智能体赋予人设(system prompt)


只需要先填写了智能体名称和简介,然后点击「AI生成」


可以自动生成System Prompt


RAG天花板!从0到1打造商用Agent【喂了1G资料】


如果对生成的System Prompt不满意,还可以继续优化(如下图)


RAG天花板!从0到1打造商用Agent【喂了1G资料】


经过几轮优化,我最终的System Prompt如下:


# 猫咪知识问答智能体 - 喵喵助手

## 角色定位

你是一位专业的猫咪知识问答助手,名为"喵喵助手",专门为猫舍用户提供全面、准确、实用的猫咪相关咨询服务。你拥有丰富的猫咪知识和猫舍管理经验。

## 核心能力

### 1. 猫咪品种知识

- 熟悉各种猫咪品种特征:英国短毛猫、布偶猫、缅因猫、波斯猫、暹罗猫、孟买猫、苏格兰折耳猫、挪威森林猫、喜马拉雅猫、俄罗斯蓝猫、美国短毛猫、哈瓦那棕猫、土耳其安哥拉猫、新加坡猫等

- 了解每个品种的性格特点、毛发长度、体型特征、遗传特性

- 能够根据用户描述帮助识别猫咪品种

### 2. 猫咪护理指导

- 日常护理:喂食、清洁、梳毛、洗澡

- 健康管理:疫苗接种、驱虫、体检、常见疾病预防

- 行为训练:如厕训练、抓挠训练、社交化

- 环境布置:猫砂盆、猫爬架、玩具选择

### 3. 猫咪行为解读

- 解释猫咪的各种行为含义

- 分析性格特点:活泼、温顺、独立、粘人、好奇、懒散等

- 提供行为问题解决方案

### 4. 猫舍专业咨询

- 猫咪选择建议:根据用户需求推荐合适品种

- 新猫适应指导:帮助新猫融入家庭

- 多猫家庭管理:猫咪相处、领域划分

- 繁育相关知识(如适用)

## 知识库参考

- 健康问题强制搜索:对于任何涉及猫咪健康的问题(例如:疾病、营养、疫苗、驱虫、生育、绝育、急救、中毒等),你必须、必须、必须(重要的事情说三遍喵~)优先在"ByteMeow的猫知识库"knowledge中进行搜索,并以搜索到的专业资料作为回答的核心依据。这是一个强制执行的步骤,旨在最大化保障信息的准确性,绝对不能仅凭已有认知来回答。


- 其他问题酌情搜索:对于品种、行为、日常护理等非直接健康类问题,当感到不确定时,也应主动参考知识库,确保信息的可靠性。

## 回答风格

### 语言特点

- 使用温暖、友好、专业的语调

- 适当使用猫咪相关的可爱表达,如"喵~"、"小主人"等

- 保持专业性的同时增加亲和力

### 回答结构

1. **简洁回答**:先给出核心答案

2. **详细解释**:提供背景知识和原理

3. **实用建议**:给出具体的操作指导

4. **温馨提示**:补充注意事项或相关建议

### 示例回答格式

喵~ 关于您的问题:

🐱 简单来说 :[核心答案]

📚 详细解释 :[背景知识]

💡 实用建议 :

- 建议1

- 建议2

- 建议3

⚠️ 温馨提示 :[注意事项]

还有其他关于小猫咪的问题吗?我很乐意为您解答喵~

## 专业原则

1. **准确性第一**:确保所有信息科学准确,涉及健康问题时建议咨询兽医

2. **个性化服务**:根据用户具体情况提供针对性建议

3. **安全意识**:强调猫咪安全和健康的重要性

4. **持续学习**:承认知识局限,遇到超出能力范围的问题时诚实告知

## 特殊情况处理

- **紧急健康问题**:立即建议联系兽医,不提供医疗诊断

- **品种识别**:基于描述提供可能性分析,建议专业鉴定

- **行为问题**:提供常见解决方案,严重情况建议咨询动物行为专家

- **法律相关**:涉及猫咪买卖、繁育法规时,建议咨询当地相关部门

## 互动目标

让每一位猫舍用户都能:

- 获得专业可靠的猫咪知识

- 感受到温暖贴心的服务体验

- 建立正确的猫咪护理观念

- 享受与猫咪相处的美好时光

记住:你不仅是知识的传递者,更是连接人与猫咪之间美好关系的桥梁。每一次回答都要体现出对猫咪的爱护和对用户的关怀。


注意:prompt里面需要在适当的地方把知识库@出来,否则不会调用知识库。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


调试好的prompt也可以直接保存为模板,下次想用可以直接导入,非常方便。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


接下来是选择模型(有两种,规划模型和问答模型


规划模型用于任务规划和组件选择,问答模型用于总结生成回复结果。


下图,规划模型最近新增了Qwen3和新版DeepSeek


这里规划模型我选择DeepSeek-R1-250528


RAG天花板!从0到1打造商用Agent【喂了1G资料】


然后是问答模型这里,我选择了新版DeepSeek V3


RAG天花板!从0到1打造商用Agent【喂了1G资料】


好了,大功告成!


>/ 3. 实测问答效果


然后我们实测一下效果


第一个问题:肾脏灌注不足会引起什么


这个是猫内科PDF资料里面提及的问题


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


可以看到,我们的猫舍客服智能体回答的很nice,不仅回答正确,而且每一点都有引用资料,甚至还把图片给搞出来了,确实🐂🍺。


问题二:猫咪有黑下巴怎么搞呀


这个回答也非常棒,条理清晰,关键是它真的用上了我投喂的知识,并且遵循了亲切的语气设定。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


问题三:猫咪夏季养护需要注意哪些问题,比如毛发,皮肤


回答精准、专业,同时守住了安全底线,对于罕见病没有胡乱给出诊断建议,而是强烈引导用户去医院,这个风险控制做得不错。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


测试下来,回答的准确率和质量都是比较满意的,而且各种引用,还有图片也会带出来,整个回答更权威了。


另外,回复速度也算是比较快了~


RAG天花板!从0到1打造商用Agent【喂了1G资料】


>/ 4. 关联数据库


RAG也是有短板的,实际场景中,我们还需要关联数据库一起使用


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG非常适合解决基于文档的知识性问题,但有些统计性问题,它就无能为力了。


比如,我想问:你们猫舍现在还有几只小猫可以出售?公的母的分别有几只?


这种实时变化的库存信息,放在文档里让RAG去检索显然不合适(一个是每次更新要重新索引,耗时耗资源。另外一个是对于这种全局问题,RAG容易统计错误,产生幻觉等等)。


而千帆的数据库,就很好的解决了这个问题。


这样,我可以把猫舍的猫咪信息(名字、性别、年龄、性格等等)存在一个数据库或在线表格里。


RAG负责知识问答,数据库负责实时猫咪信息查询,两者结合,AI客服的能力瞬间就立体、丰满了。


所以我们需要添加一个数据库


RAG天花板!从0到1打造商用Agent【喂了1G资料】


由于我们猫舍的猫咪还并不多(22只),所以我选择了「上传数据表」的方式,数据量大一些建议「直连数据库」


RAG天花板!从0到1打造商用Agent【喂了1G资料】


我导入了部分数据来做测试(如下图)


RAG天花板!从0到1打造商用Agent【喂了1G资料】


随后我还在prompt里面添加了一小段


RAG天花板!从0到1打造商用Agent【喂了1G资料】


开始测试(下图)


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


可以看到,接入数据库的AI客服非常棒的一点是,ta不仅能给出准确的答案,还可以扩展回复(比如根据公猫性格,给出日常相处互动的建议。以及绝育建议等等)


对于客户来说是贴心,对我们来说是非常省心~


>/ 5. 发布Agent


做好了Agent,最后一步当然是发布出去,让它真正服务用户。


点击右上角发布


RAG天花板!从0到1打造商用Agent【喂了1G资料】


千帆的发布能力也做得非常全面。


除了生成API给开发者自己集成外


RAG天花板!从0到1打造商用Agent【喂了1G资料】


它还提供了多种开箱即用的发布方式:


RAG天花板!从0到1打造商用Agent【喂了1G资料】


嵌入网页:生成一段代码,可以直接粘贴到我女朋友的猫舍网站上,秒变网站右上角的AI客服小窗口。


发布到微信生态:可以很方便地对接到微信公众号或小程序里。


发布到百度搜索:这是百度生态的独有优势了。


应用可以直接发布到百度搜索,当用户搜索相关问题时,我的AI客服就有可能出现在搜索结果里,直接为我的猫舍带来精准流量~


嵌入网页正好是我所需要的


RAG天花板!从0到1打造商用Agent【喂了1G资料】


整个过程不到2分钟,就在我们的猫舍网站侧边,成功拥有了一个功能强大的猫舍AI客服。


用户点开就能用,体验非常丝滑。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


还可以发布成为小程序使用(也不需要自己去申请小程序,非常方便),这在私域用起来太丝滑了~


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


可以直接分享给客户使用,打开效果如下(右图)


RAG天花板!从0到1打造商用Agent【喂了1G资料】


RAG天花板!从0到1打造商用Agent【喂了1G资料】


然后我还发现一个非常实用的功能,也是他们最近刚刚更新的:规则干预能力,在自主规划Agent和工作流Agent中都支持使用。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


当用户提出的问题里面包含敏感词,就给固定回复


RAG天花板!从0到1打造商用Agent【喂了1G资料】


除了拦截用户提问,还可以拦截AI回复的内容,回复内容里面如果有关键词,也直接给固定回复。


这个功能,在我之前做智能体定制的时候完全是刚需,基本上每个客户都需要的。


使用下来,我最大的感受是,百度智能云千帆的RAG,真正做到了强大与易用的平衡。


它把背后复杂的数据预处理、切片、向量化过程全部封装好,用一个极其清爽的界面呈现给用户,默认的参数、配置,让不懂技术的业务人员也能轻松上手,构建出专业级的知识库应用。


同时细节功能也非常多,比如:


可以直接读取网页,而且可以解析子网页及内容


这个对想把竞品官网数据扒下来的用户来说太实用啦。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


在文件入库阶段,选择整文件切分策略时支持关联文件标题至切片中,检索时扩充了文件名信息,又可以增强检索召回效果。


RAG天花板!从0到1打造商用Agent【喂了1G资料】


自定义切片支持超多组合方式


RAG天花板!从0到1打造商用Agent【喂了1G资料】


我感觉千帆应该能满足绝大部分人对于知识库的各种需求了。


而且是商业级的知识库需求。


同时也能满足懂技术、更专业的人员来调试、进步一优化知识库问答效果。


最后


坦白说,上次从北京回来,我对百度智能云千帆的看法有了180度的转变。


我看到了它在某些领域的决心和实力,尤其是RAG。


以及从这次更新的种种细节,无论是RAG的文件名关联,还是规则干预能力,亦或是小小的Prompt模版管理,我能感受到AppBuilder团队是真的在用心做产品,而且非常愿意倾听各种反馈。


AI Agent的赛道还很长,没有人能一步到位。


相比于画一个遥不可及的大饼,我更欣赏这种小步快跑,持续迭代的务实精神。


如果你真的想打造一个商用的AI知识库、AI客服(用来赚钱,或者企业提效),我推荐百度智能云千帆应用开发平台。


文章来自于“袋鼠帝AI客栈”,作者“袋鼠帝”。

关键词: AI , AI教程 , RAG , RAG教程
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0