大模型的记忆片段进行多次替换的时候,会导致模型输出的内容叠加不同记忆片段,出现混淆和错乱的问题。
在我做 Crew.ai 知识库测试的时,替换多份知识库文档后,发现大模型已经疯了。
先来输入的两份文档的信息是怎样的。
第一份是公开的 aion V Plus车主手册,进行应用效果的测试。
(推荐一个公开的车主手册大全下载地址给大家:https://www.carobook.com/aion-sms.html#google_vignette)
另一份是有多个用户信息的健康档案。
来看看,大模型能魔改知识到什么情况。
查了一通,发现CrewAI 有缓存机制,这可能导致知识库混淆的问题。
怎么办,也很简单。指定一个专有的向量数据库,来永久化文件夹,保证这个文件夹内的知识稳定有效。
# 指定向量数据库持久化文件夹
os.environ["CREWAI_STORAGE_DIR"] = ("vector_store010")
再来测试一下效果,终于正常了(ಥ_ಥ)。这次的测试,拆了几个维度。
1-全文档总结情况测试:张三九的基本信息。
这个回答告知了张三九的基本情况,并且对张三九的健康状况、生活习惯、体检结果和医生建议、长期健康管理目标进行了总结。
2-区域知识提取:根据张三九的情况,给出健康管理建议。
3-单点信息提取测试:李四六的丈夫是谁?
4-逻辑推理测试:王五结婚了吗?
5-未提供信息测试:王五有没有车?
地狱级别难度:多条件推理。
好的,基础测试都已经完成了,开始上难度了。
这个文档里,提到了两次李四六,大家可以看一下,这俩人是不是同一个人。
李四六第一次出现的地方,是在张三九个人档案的紧急联系人,妻子这一栏。除了名字和电话,其他并没有给更多的信息。我们能看到,张三九住上海。
李四六第二次出现的地方,则是在患者档案里。有详细的出生年月、婚姻状态、职业、居住地址。划重点,患者李四六住北京。丈夫是王五。
让我们先来梳理一下这里的人物关系。
张三九的妻子是李四六;李四六的丈夫是王五;
按照我国一夫一妻的婚姻制度推断,这俩李四六大概率不是同一个人。
那么,问一下我们的智能体:
张三九的妻子李四六和患者李四六是同一人吗?
多次回答,答案不同。第一次结论错误,但是推断正确。
第二次开始瞎掰,虽然电话不一样,但是名字一样,而且都已婚,所以是同一个人。
让TA 再详细说理由的时候,就更扯了。模型开始 YY张三九妻子的年龄、职业和医疗历史。为了证明这俩人是同一个人,拷贝了一份患者李四六的信息,强行放到张三九妻子李四六的身上。
那么,国产之光 kimi 会好一些吗?
也好不到哪里去。第一次回答,是同一个人。
再看看 kimi 的推断理由。
你从TA 的回答中,可以真切的看到,什么是一本正经的胡说八道。结论对了、论据的逻辑对了,但是,事实开始瞎造。
我们再对比一下我心目中最能打的 Claude-3.5-Sonnet的答案吧。论述过程正确,但是,结论又回答错误。
换 gpt-4o,来看一下脑子是否清楚一些。惨了。
最终结论:单个模型,无论有多聪明,在复杂推理的时候,总会存在各种缺陷,导致前后信息不一致的问题。这个时候,AIAgent智能体的解决方案就显得更加重要了。
至于智能体如何解决以上问题?我们再在以后的文章里探讨。
文章来自微信公众号 “ 木乐乐的异想世界 “,作者 ” 木乐乐 “
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI