今年已经过去了一半,突然心血来潮,来更新一期「2025 年上半年,我最推荐的 AI 清单」了。
综合我半年使用的个人看法,不覆盖所有的产品,凭自己印象,直接码出这篇文章。
实在没记起来的好产品,也就不算“我的上半年推荐”了,还请包容。
接下来,是正式榜单:
📌文章没有水,但还是有点长,将依次盘点:大模型(LLM、文生图/视频/音频),AI 产品(Agent、Chat、Coding、其他),并在文末附上总结与趋势展望。
上半年,无论是国内还是国外,LLM 还是文生图、视频模型,都涌现出来了很多强劲的选手。
今年基本没咋用 ChatGPT 模型,也就不对 GPT、o 系列模型进行评价(主要感觉也没必须用的理由)
今年最没想到的,就是 Gemini 2.5 Pro 成了最大的黑马,还凭借着强大的多模态识别能力,100 万 tokens 的超长上下文空间,极其独特的 think 过程,给到了我当下最佳的模型使用体验。
2.5 Pro 是真的厉害,实测 10w tokens 之后,还能准确回忆起最早的对话内容,指令遵循也很不错。
而且拿来作为日常对话,你会发现它的智力很高,总是能从你对话的细节中,发现你自己都没注意到的情绪。
比较少有人注意到,Gemini 的 think 过程与其他推理模型有显著的区别,往往会更加全面、细致的分析用户输入,偏金字塔思维的方式,完成更佳的推理。
就我私心而言,这就是当下各方面最均衡、最强大的模型体验。
它的小弟 Gemini 2.5 flash,虽然没有 Pro 大哥那么聪明的表现,但平衡光速的生成速度、还不错的模型智力,也值得推荐。
体验渠道:
如果不提 DeepSeek R1,这份 AI 产品清单肯定不完整。
DeepSeek R1 在春节火到没边,极大地促进了 AI 在国内落地应用的进度,甚至很多用户不知道 ChatGPT、不知道豆包,但知道 DeepSeek(这是我的访谈实测),NB。
在过年期间,我也专门针对 DeepSeek R1 的技术突破,写过一篇文章 《非技术人 10 分钟读懂 Deepseek R1》。
R1 在创造性、启发性的文哲类任务里,实在是太强了,很容易给你额外的启发,到现在也很难找到对手。
但除开这些能接受高随机结果的任务外,我不推荐任何朋友使用 R1。原因无他——太“癫”了,指令遵循性差,很有自己的想法,喜欢添油加醋,没法用 Prompt 稳定控制它。
用来干活、尤其是商业落地应用,还是需要再三评估衡量。(但在传统软件行业有额外加成,懂的都懂)
体验渠道:太多了。
除了官网,你也可以在腾讯元宝等各类产品中使用它,也可以在阿里云、火山引擎、硅基流动等云服务中直接调用。
今年,模型的多模态能力已经成了重要的比拼项,能准确识别图片中的信息,能让 AI 多做很多事。
前段时间,我设计了一项「网络迷踪 GeoGuessr」的模型测试,来测试模型的视觉与推理能力。
这项测试发出来一个月后,类似测试也被 Sam·Altman 转发,扩大了影响力。
测试过程大概是这样,让模型看着一张照片,定位照片所处的世界地理位置:
非常值得一提,在测试中只有 o3、QVQ 识别了下图中远处很小的“Decathlon”迪卡侬 Logo,而且 QVQ 是没用图片缩放直接识别,而 o3 依赖了图片缩放工具。(QVQ 基于 Qwen-VL 系列模型构建)
所以印象很深,可以说这俩代表了 2 个月前国内外 Top 级别的多模态能力。
除了我已经推荐过的 Gemini 2.5 Pro 外,比较想推荐的是选手分别是:豆包 Seed 1.6、Qwen 3 8B、Claude 4 sonnet。
我一直这么和朋友推荐的,也可以作为大家测试选型的参考。
在Qwen3 首发当日,我发的实测与评价:《我们有必要使用 Qwen3 吗?》
Claude 模型本来懒得单独拿出来提,Coding 领域无可争议的 Top 1。
无论是 AI Coding 工具里的模型选用,还是自己做 MCP 应用、Coding Agent,都首选 Claude 4 sonnet 就完事了。
也是前端代码生成时,审美最好的大模型。
我自己开发的 Chat Memo 官网,就是用 Claude 4 进行 Vibe Design 的。我说需求、Claude 生成初版,然后再动动嘴微调,就有了这样的效果:
体验渠道:
除开这些推荐外,如果需要免费大模型 API,且对模型智力要求没有那么高:
智谱开放平台有永久免费的推理模型,可以去看看(我有个产品就跑了半年的智谱免费 API,还是要夸夸 z.ai 的)
和很多 AI 从业者交流过(包括明星 Agent 公司、Benchmark 设计者),有些结论:
今年文生图、文生视频领域,模型进步简直是翻天覆地,可用度大大提升,AIGC 走进了消费用户领域。
标志性变化就是,我们都能明显看到,不论是文章配图,还是小红书、抖音,都出现了很多 AI 生成的内容。
这也是最接近模型即产品的一个领域。
我自己日常涉猎不算重度,主要用的是免费的产品。分享下作为非 AIGC 设计师&普通用户的感受:
也请了我的好朋友,AIGC 领域宝藏博主,设计师 #阿真irene 分享她的上半年之选。
她在这块比我钻研的深多了,这两天她的公众号也会发布详细的《2025 年上半年,AIGC 产品推荐清单》:
有兴趣可以关注:
阿真Irene
分享有趣 · 一起精进丨AI 丨设计丨工具丨个人成长
如果说给国内用户推荐文生图 AI,豆包生图确实是我的第一选择。
自从 SeedEdit 3.0 发布以来,感觉豆包生图效果突飞猛进,变的越来越顺手。(SeedEdit 3.0 技术报告:https://arxiv.org/pdf/2506.05083)
一方面支持 4o 式的自然语言直接改图;另一方面对于图片内的文字生成,也有很好的支持。
在生成人像等各类场景也有不俗的质量:
而且免费,国内可直接使用,生成速度又特别快。
体验渠道:
Google Imagen 其实有个非常强的领域——产品设计,其质感没有模型能和它比拼。
我发现它的原因也很神奇
——接了一家产品公司的 AI 设计咨询,帮忙调研并定制了 AI 辅助产品设计的工作流与提示词。结果调研下来,发现表现最好的就是 Imagen 3,即使是现在也少有模型能比肩。
生成速度快、质量好,又免费,确实值得使用。现在 AI studio 中提供了 imagen 4 版本,感觉生成图片的光感更好了些,但没有显著区别。
📌我现在依然配合自己写的 《万能文生图提示词》 ,使用 imagen 3 来覆盖大部分精细作图需求的场景。(这份提示词有 1k+ 转发,认可度极高。推荐纳入自己的文生图工作流)
体验渠道:
可灵一直 6 到飞起,一直是最强的那几个 AI 视频模型的存在。
支持文生视频、图生视频。用的比较多的还是图生视频,这样比较容易控制视频画面。
画面稳定,物理效果逼真,产品交互体验优秀,价格适中。现在也已经更新到了「可灵 2.1」版本。
体验渠道:https://app.klingai.com/cn/image-to-video/frame-mode/new
不过要论上半年看起来最惊喜、最强的视频模型,那还得是 Google Veo3。
一个视频体验它的效果(视频来源忘了):
看到小船掉落到洞里的过程了吗?这个物理效果让人头皮发麻……居然 AI 能在 2D 空间完成对 3D 真实物理现象的模拟,还能同步生成匹配的音效。
体验渠道:Google Flow - https://labs.google/fx/zh/tools/flow
Gemini……我猜大家都快忘了它还有个支持生图的版本了吧。
在 ChatGPT-4o 生图发布的前一周,Gemini 就发了 2.0 Image Generation,也是行业内第一个支持连续精准改图的文生图模型。
当时我还首发了一篇测试报告:《Google 用文生图 AI 开始真正重塑行业》。
能改图、抠图、能批量生图,是 2025 年的初代文生图许愿机。
可惜一周后就被 ChatGPT-4o 狙击了,4o 比它的效果还要好,一下就失去了热度。
现在,它的上位推荐是:ChatGPT-4o、豆包生图。所以别刻意去用了。
凭一己之力,压住 Gemini 2.0 生图热度的模型,是 OpenAI 上半年站起来的一大表现。自此用自然语言改图成了彻底的用户需求共识,大幅提升了文生图创作体验与可用性。
和上述豆包一样,支持自然语言连续改图、图片合成,对图内生成英文的支持很好,中文会稍微差一点。
比如 Qwen3 文章中的炉石图,就是 4o 做出来的。
就是免费用户生图的速度确实太慢了点,不然应该会常用。
体验渠道:「ChatGPT-4o」-「工具 - 创作一张图片」
Midjourney 在我心里,一直以极高的画面精细度、光感、艺术表达,被留下了深刻的印象。
虽然它需要付费,我也没有那么高的日常作图需求,但还是有必要推荐一下。
阿真 irene:科幻枪战游戏
阿真 irene:概念艺术表达
阿真 irene:写实人像
San 山雨的战地风格图片
📌配合《万能文生图提示词》 ,能够有效帮你提升 Midjourney 作画效果,上面 4 张也都用了这套提示词模板
体验渠道:国外搜「Midjourney」;国内搜「悠船」
混进来一个很偏门的文生图方法——用 AI Coding 生成前端代码,网页即图片。
比如这些 Case,就是我用 Claude Coding 生成的图片:
朋友 #歸藏的AI工具箱 有写过一篇类似的教程分享:《用提示词,让长网页秒变封面》
之前我发完社交名片 Case 后,今年就有好多 Agent 产品,都普遍按这个思路,在做 Deep Research 结果转可视化 PPT、长图了,说明确实用户接受度很高。
用来做文章配图再好不过。
也可以看之前我在社区直播分享过的 PPT:https://zkv549gmz8.feishu.cn/slides/HHFBsYRqllIgrBdbvaLccKcWnQg
轮到文生音频领域,第一个想起来的是 MiniMax speech-02。
能克隆你的声音,音色模拟的还可以。但是情感、语调、停顿还是与真人配音有明显差距。
克隆了一款知名游戏的男主配音,可以听一下效果。:
Btw:豆包的语音模型也还不错,声音复刻、语音识别都不错(豆包 APP 里,AI 的语音通话表现就非常好了)
体验渠道:
终于写到 AI 产品这一个 Part 了,好长,真不容易。
如果说 DeepSeek 带火了国内大模型的全民应用,那小宏他们的 Manus,则带火了通用 Agent 竞赛热潮。
一方面,严格来说 Coding Agent 也算 Agent,但由于场景过于垂直,就单独划归在 AI Coding 产品一类,不在此节详述。
另一方面,关于 Agent 和 Deep Research 之间的关系。
仔细区分,Deep Research 应该算 Agent 应用的子集(何况还有些通用 Agent,实则用 Deep Research 框架 + MCP 扩展实现 Agent 效果),所以 DR 倒是放在这一节一并讨论。
同样的,今年就是没用 ChatGPT,它家的 DR 是很强,但确实没仔细用过,暂且不论。
另外,类似 Lovart(有设计需求的业余用户会用),扣子空间(很有可能做成垂直 Agent 社区),昆仑天工(在 Office 类内容生成、需求澄清交互方面做的不错),也都是不错的产品。
虽然现在宣传自己是通用 Agent 的产品很多,严格意义上算通用 Agent 的,我认为还是只有 Manus。这也是我 2025 年最喜欢的 AI 产品。
在 Manus 首发期,我就写了篇《Manus 吹散了人与 Agent 之间的迷雾》,里面就有一个 Case「让 Manus 自主下载宝可梦并运行」。
如果说互联网工作者的特征是 人 + 电脑 = 干活,那么真正给 AI 配了一台完整云电脑的,确实只有 Manus。
这就意味着 Manus 的通用任务想象空间还是很大。当不知道一个任务交给哪个 AI 时,就可以试试先甩给 Manus 再说。
比如在单个网站中,像人一样搜索站内信息、通过连续点击网页元素,完成信息收集
案例:https://manus.im/share/SqTXv0qMVLvXouGvaAXtDD?replay=1
换到以 DR+MCP 方案的 Agent 里,就容易直接改用 MCP 网页搜索服务,导致解决方案偏离实际。
还意味着,Manus 不仅能生成前端网页,还能直接搭建一个完整有后端的站点服务。AI + 云电脑 = Create everything,这点用到的话,会有质变的体验。
体验渠道:Manus 官网 - 我给一个自己的邀请链接,每人可得 500 积分 https://manus.im/invitation/ANM00QATTXTEP6F
Kimi Researcher 本来我也是打算单独写一篇的,作为 Kimi 沉寂了半年的力作,带来了一些新的惊喜。(但是偷懒了)
原本我对于只能查国内内容的 Agent 出的报告,不报多少希望。因为国内的网页信息又乱又杂,无从考证。
但 Kimi Researcher 以其超长上下文、大量深度的网页搜索,硬是在中文内容中,能总结出一些很细节的内容,且幻觉率也明显较低。
朋友拿我为例子,用 Kimi 做了一次 DR 任务,调研「一泽Eze」博主的信息:https://www.kimi.com/share/d1d94ou1bb2ngk5pd00g
不得不说,确实归纳的非常细节,而且推理正确、详实,本人表示眼前一亮。
这种效果,得益于 Kimi 将 DR Agent 的能力,通过 RL 强化学习,内训到了模型中,使得其行为不是被规则写死的,而是根据当前任务动态生成的,所以在复杂信息的尽调上,确实表现出了极佳的水平。
Kimi 官方技术人员也在知乎上写了两篇 Agent 技术分享,有兴趣也可以读一下:https://www.zhihu.com/question/1919712376204256921/answer/1920937507203297443
体验渠道:Kimi Chat 内「申请 Kimi 深度研究内测」:https://www.kimi.com/ (和 Kimi 的朋友打过了招呼,在问卷中备注“一泽读者”,有更大概率通过申请)
夸克 AI 做了个「高考志愿填报 Agent」,暗搓搓搞了个大数据。
不到一个月,生成超过 1000 万份深度研究报告,峰值时并行处理 250 万份复杂任务。
虽然这个 Case 过于垂直与时效性,但我觉得很值得拿来讲讲,它背后代表的下半年 Agent 发展方向。
AI 最容易犯的错误就是幻觉。而高考志愿填报这种严肃的场景,容不得一点幻觉,关系千万考生的高考去向。
夸克 AI 为了确保 DR 的报告质量,以高质量垂直知识源 + 经过深度对齐的垂类大模型的方式,构成了夸克 Deep Research Agent 做出可靠研究、决策的核心:
1.在数据准备方面,对海量高考数据进行分类与清洗
2. 同时,通过 SFT、RLVF、RLHF ,训练一个垂直、可信的高考志愿大模型,作为垂直 Agent 的核心。
我当时的评价是:这标志着 AI 应用已经有能力从过去抽卡式的、随机生成报告的娱乐模式,进入真正解决复杂、垂直、高价值问题的“深度落地”阶段。
如果要让 AI 在现阶段就能承接真正落地干活的需求,这套垂直数据+垂直模型训练应该会成为下半年 AI Agent 正经落地的标配。
📌有兴趣了解技术详情的,可阅读《对话夸克 AI:首次揭秘,全国最大规模深度研究 Agent 落地方法论》
除开 Manus 负责通用任务,Kimi 负责中文信源尽调,Gemini Deep Research 虽然表现平平,但凭借免费、能访问海外信源(含 Arixv)、低幻觉的特色,成了我外文信源调研的日常选择。
体验地址:https://gemini.google.com/ ,对话框里记得勾选「Deep Research」
在大模型部分,其实或多或少已经提过了我现在的使用偏好。
在移动端,我们不追求顶级的 AI 智力,而是更希望全能、便捷、快速的问答体验。
这半年以来,「打开豆包发送语音消息」的快捷指令,一直绑定在我手机的操作按钮上,遇到要问的问题,按一下就开始录音提问,特别方便。
而且多模态识别也挺顺手的,今天还让豆包帮我识别了阳台花盆里突然长出来的草是什么。
特别值得一提的是,豆包的视频模式,甚至还能充当你的虚拟导游:
开着视频通话,就能直接实时对话提问,就像和一个真导游在视频聊天,这块体验很神奇,建议试试。
也能体验到优秀的自然语言生图、改图功能,豆包相当全能了。(就是上下文记忆表现不咋地)
我其实在犹豫要不要提 AI 搜索。
因为我的暴论是:从 2025 年上半年的发展趋势来看,纯 AI 搜索形态的产品,正在被 AI Chat 和 Deep Research 挤压生存空间。甚至长期来看,我并不看好 AI 搜索产品的存在必要性。
简单问题用 AI Chat,直接在开着的 AI 窗口问一嘴,就能得到答案,还能方便的带着上下文记忆扩展问答。
复杂问题,用 DR 更能一次性找到有价值的增量信息,大家也愿意等这个 DR 时间。
如果你还是想问有什么 AI 搜索可以用?
那可以继续用:
实际上,这两者也都在摆脱纯粹的 AI 搜索形式。前者开始转教育,做「今天学点啥」;后者的 AI 搜索框,则是包含了深度思考、AI 写作、生图等一篮子 AI 功能,主打一站式 AI 日常使用体验。
如果作为一线产品经理,到现在还完全没体验过 AI Coding,我觉得基本是不合格的产品经理了。(不要求做出独立的完整 Demo,用来做个静态页面也好啊)
像我最近的 Chat Memo,就是用了纯 AI Coding。
在不懂编程的情况下,1 周半写出了完成度非常高的 Chrome 插件 ;2 天完成了官网的 Vibe 设计与开发。发布后,短短 1 周就有了 1000 用户量。
这个 Case 直接证明了 AI Coding 现在已经可以做出完成度极高的 MVP 产品,而非只能做 AI 小玩具。
而且,以我身边样本为例,一些 AI 团队的新产品,AI 代码占比达 90%;老牌产品的 AI Coding 采用率也能在 40% 以上。
没用过 AI Coding 的,真的该抓紧去试试了。
也给一些负责任的 Coding 产品推荐:
也有一些朋友觉得 Augment Code 作为新 AI Coding 产品,有着更佳智能的体验,暂时还没试过,不做推荐,可自行体验。
另外关于 Code Review,某明星 Agent 公司的超靠谱朋友,推荐使用 Code Rabbit,作为 AI Code Review 的选择。
Btw:Windsurf 自从被 OpenAI 收购后,它的 Claude 模型就不太稳定,保险起见,现在不建议入坑。
Claude Code 和 Gemini Cli,只适合程序员群体使用,普通用户脱离了 GUI 再去用这俩,还是会很吃力的,不推荐主动退化自己的交互方式。
上面提到的,就是 2025 年主流视野中,最火的一些模型、产品赛道,除开这些以外,也有一些零星的产品值得推荐:
AI 功能做得好,不在于多么花里胡哨、专业难懂,而在于真的能让人用进去、爱不释手。
Flomo 绝对算这个类别。
1)相关笔记:根据笔记向量,匹配语义相似的笔记。无需 AI 总结,就能看到历史相关笔记
2)AI 洞察:根据相关笔记,AI 洞察你在某类主题下笔记的共性与盲点,给予主动的启发。
打磨 Prompt 如打磨产品本身。少楠为了 AI 洞察,自测迭代了数百个版本的 AI 洞察 Prompt,尽可能地让 AI 能更加自然、不自嗨地融入 flomo 用户的服务中。
而 flomo 做每个 AI 功能,也绝非是为了 AI 而 AI,而是在像溪流一样设计产品。当一个人记录很多的时候,他可能需要回顾。而 AI 回顾的前提是「找到相关的笔记」,再是基于相关笔记做洞察启发。
来自少楠的小报童专栏:「松节油:Behind flomo」
如果说今年的 Agent 产品们,是在把未来带到现实;Flomo 更像另一个视角,一点点沿着真实需求场景,把服务做的更好。
体验渠道:https://flomoapp.com/ ,少楠周三晚直播,分享 AI 洞察的设计理念,正式版本该功能本周四上线。
本地多 API 集成的 AI 对话客户端、本地知识库,近 3w Github star。
可以自定义为你提供 AI 服务的云服务商:
如果需要:
1)一次性对比多 AI 的 Prompt 回应质量
2)无缝的本地 RAG 知识库体验
PS:甚至还有 MCP 体验(只不过我现在不推荐一般用户用 MCP)
——用它!
体验渠道:https://www.cherry-ai.com/
字节做的一个 Prompt 工程工具,我最喜欢的是它的 Prompt 调优管理功能。如果是针对国内模型进行 Prompt 工程调优,非常好用。
在帮朋友的产品打磨封装功能所用的 Prompt 时,就用了 Prompt Pilot。
能够批量跑 Benchmark,批量评分 Prompt 结果的质量,很方便。
唯一的遗憾是只能用火山方舟提供的模型列表,包含 DS、豆包等模型。要是能支持国外模型测试就好了,出个海外版吧。
体验渠道:https://promptpilot.volcengine.com/tasklist
一方面是在这个场景,确实没产品比 Chat Memo 做的体验更好、更无感;另一方面也是给自己的产品打个小广告(自家免费的广告位,当然要蹭(不是))
这是一份在 AI 时代都用得上,在将来也许会发挥大价值的礼物。
能够帮你解决 AI 对话散落在各个 AI 平台,难以沉淀与搜索的问题。在浏览器上装上后就支持:
而且默认数据存储在浏览器本地,你的数据只属于你。
详见:《Chat Memo:构建 AI 时代最重要的个人资产》
体验渠道:
也附上一份我日常推荐朋友的 AI 模型&产品推荐表:
写完才猛然发现,2025 年上半年就已经发生了这么多的变化。
这么多新产品,每个产品放在过去前 AI 时代,都是相当“炸裂”、“颠覆性”的存在。但它们确实都集中发生在短短半年内。
DeepSeek R1 进一步确立了国际上中国 AI 的地位;Manus 则是率先带起了通用 Agent 的浪潮。
豆包生图、可灵 AI,则是进一步加速了 AIGC 应用的全民普及。Veo3 生视频更是宣告 AI 生成内容进一步达到了以假乱真,低维模拟高维世界物理效果的可行性。
而 Lovart、夸克高考志愿 Agent 在垂直场景的成功实践,又证明 AI 应用落地正在从浅水区,加速进入到各个垂直场景的深水区。
在下半年,我直觉应用侧会有两个趋势:
1. Agent 开始在垂直领域卷数据、卷后训练:就像夸克高考志愿 Agent、Kimi-Researcher,为了在垂直场景(高考志愿、DR)上获取更加稳定、可用的效果,纷纷开始对模型层下手优化,且以模型的进步得到了 Agent 整体效果的提升。
2. AI 记忆利用与 Context 构造:实话说,现在 AI 体验不行、麻烦的最大原因,不是 AI 智力不行。而是 AI 不够懂我们的意图,每次都要我们反复说明已经陈述过的 Context。上半年只有看到 OpenAI 在 ChatGPT 中优化了 Memory 的利用。当模型发展遇阻,应用层 Prompt 套壳玩的差不多的时候,最终还是要回到 Context 工程上来,这是每个好 AI 产品都逃不掉的任务。(不仅是行业趋势,也是我通过精进 Chat Memo、Context 工程实践,下半年会持续深耕的方向)
当然,我个人觉得前者可能下半年就能看到爆发期,后者估计到明年上半年才会有比较多的落地探索。
潮水仍在奔涌,探索永无止境。
以上便是 2025 年上半年,我在国内所见、当前推荐的 AI 模型与产品清单。
那么,你的上半年最爱又是什么?欢迎在评论区留下你的清单,让我们交换地图,继续前行。
感谢你的耐心阅读 🥰
文章来自微信公众号 “ 一泽Eze ”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales