昨天,所有人都被Manus刷屏了,一个邀请码已经被炒到了天价。
虽然被Manus强势刷屏,很多人却只能眼睁睁地看着,没法亲自上手体验,只因一码难求。
最新消息,就在刚刚,Manus AI的官方X账号已被平台冻结。
不过就在此时,开源界以迅雷不及掩耳之势上演了一波速度与激情——有这样一个项目,仅凭三小时的代码量,就掀翻了AI的高墙。
昨天晚上,GitHub开源了一个无需邀请码的OpenManus项目,刚刚开源不到一天,Star数就已经破千。
项目地址:https://github.com/mannaandpoem/OpenManus
现在,所有开发者都可以实测了。
其中最亮眼的,莫过于这句「只需修改config.toml即可开玩」,直接对封闭生态公开打脸。
创建环境,克隆项目并CD到目录,改一下config/config.toml里的大模型信息,再输入一行命令,就可以愉快地在terminal里体验了。
conda create -n open_manus python=3.12
conda activate open_manus
git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus
pip install -r requirements.txt
cp config/config.example.toml config/config.toml
# Global LLM configuration
[llm]
model = "gpt-4o"
base_url = "https://api.openai.com/v1"
api_key = "sk-..." # Replace with your actual API key
max_tokens = 4096
temperature = 0.0
# Optional configuration for specific LLM models
[llm.vision]
model = "gpt-4o"base_url = "https://api.openai.com/v1"api_key = "sk-..." # Replace with your actual API key
python main.py
来自国内的这支团队宣布:晚餐后2小时,OpenManus的核心功能直接开源!
没有邀请码,没有壁垒,这支团队用3小时的代码量,就把邀请码机制扫进历史垃圾堆,跟饥饿营销彻底说拜拜!
OpenMunus的作者均为MetaGPT的核心贡献者。
OpenManus的实现很简单,使用到了computer use、基本的智能体和规划。
就像在Manus中那样,任何人都可以使用OpenManus,把自己的想法变为现实。
无论在手机上还是OS上,如果想做Deep Research,只要提交你的问题,它就可以帮你实现了。
比如,我们可以给OpenManus这样一个任务:「对Karpathy的网站(https://karpathy.ai/)进行全面的SEO审核,并提供详细的优化报告,包括可执行的改进建议。」
OpenManus会展开思考,将自己的任务分解为如下几步。
首先,检查网站并收集基本信息
然后,分析关键的SEO要素
第三,检查技术性SEO方面的问题
最后,整理优化建议
明确任务细节后,OpenManus就打开Karpthy的网站,开始收集信息、展开详细分析。
整个思考过程,每一步都清晰可见。
最终,它生成了一份完整、详实的Karpathy个人网站优化报告。
其中,它提出的高优先级任务如下:Meta标签优化(如优化页面标题,使其包含相关关键词)、技术设置(如创建并提交XML站点地图)、内容优化(如为所有图片添加alt文本、在个人网站上实施Schema标记等)。
OpenManus的核心,就是一个革命性的模块化Agent系统,由高度智能的专业团队,组成了一个协作网络。
由此,开发者可以根据自身需要,自由组合不同的功能模块,创造出自己独有的AI助手。
OpenManus无缝集成了包括Claude 3.5、Qwen VL Plus在内的多个顶级大模型,开发者能充分利用各个模型的优势。
为何只用短短3小时,团队就能打破Manus的高墙垄断?
原因就在于,OpenManus其实源于MetaGPT的开源积累。
我们只是把浏览器工具链嫁接到过去代码上,配合沉淀的Agent工具包,核心系统1小时就完成了。
OpenManus的另一强大功能,就是它的实时反馈机制。
LLM思维链的过程,会被可视化地呈现出来。无论是任务执行进度的实时更新、思考过程日志、文件的即时通知等,都随时可见。
此外,OpenManus还配备了一套强大的工具链,能处理各种复杂任务。
其中,这些工具都不是简单的独立模块,而是被精心设计的协同系统,在处理任务时能默契配合,高效完成任务。
问题来了:OpenManus能成为Manus的平替吗?
OpenManus的开发者HKUST(GZ)博士生Jiayi Zhang上传了一段实测视频。
视频中他给出了这样一段提示:
深度调研和Manus这个Agent有关的信息,自己整理信息,然后写一个新闻html页面介绍它,你写的html应该尽可能美观。
接着OpenManus就开始干活了。它将这个任务分步进行,首先使用GoogleSearch搜索Manus Agent的相关信息。
在这个过程中还不断打出思考过程:「好的,让我们继续深入调研Manus,我会逐步访问搜索到的重要链接,收集信息,然后创建一个精美的HTML网页。」
它开始不断调用工具「browser_use」,访问不同的文章来搜集信息。
整理完信息,OpenManus再次输出:「现在让我们使用正确的完整路径来打开HTML文件:」渲染完后,它就给出了网页的链接。
打开后可以看到完整的报告。然而,OpenManus的能力还不止于此,在视频中,它被人要求继续完善这个页面,添加更多具体的技术细节和实际应用案例。
接着它就又开始调用起「google_search」以及「browser_use」这些工具,很快就重新给出了一个新的页面网址。
可以看出,OpenManus给出的这份关于Manus的报告,包括了Manus的诞生与发展、技术架构与创新以及实际应用案例与未来展望等。
虽然这份报告的结构看上去比较完整,但是细节还是有点乏善可陈。
在OpenManus项目中,很重要的一项功能就是Browser-use。
Browser-use是一种使AI智能体能够操作浏览器的简单方式。它在GitHub上开源,许多项目都使用了它的功能,目前已经获得有超过35.8k个星星了。
项目地址:https://github.com/browser-use/browser-use
它通过提取网站的交互元素(如按钮、表单等),使AI能够自动化执行浏览器操作,例如填写表单、搜索信息或导航网页。这对于开发AI驱动的网络代理非常有用。
比如,它可以将商品添加到你的购物车,并完成结账。
甚至是阅读你的简历,然后帮你找工作!中途如果有需要,还会遵从你的指示。
OpenManus的作者团队,此前就凭MetaGPT受到大量关注。
MetaGPT是一款开源的AI智能体框架,将多个AI模型整合在一起,模仿现实世界公司的运作,在模拟软件开发流程方面表现出色。
当时一经开源,MetaGPT就火爆全网,如今在GitHub上已经收获了49.1k stars。
向劲宇,研究方向为LLM智能体,强化学习和NLP,曾获得阿里巴巴数学竞赛AI赛道全球第二名。此前,他在西南交通大学获得学士学位。
于兆洋,研究方向是LLM智能体及其推理,此前在中国人民大学高瓴人工智能学院获得学士学位。
张佳钇,香港科技大学(广州) 的博士生。研究兴趣是LLM智能体,尤其关注其推理能力以及适应多种环境的智能体构建范式。此前,他在中国人民大学信息学院获得学士学位。
洪思睿,研究兴趣是LLM、NLP和多智能体系统。此前在暨南大学获得学士学位,在香港科技大学获得硕士学位。
不仅如此,另一个来自CAMEL AI团队的0天复刻Manus通用智能体,也被开源了。
这个名为OWL的项目,直接干到开源界GAIA的性能天花板,达到57.7%,超越Hugging Face提出的Open Deep Research 55.15%的表现。
项目地址:https://github.com/camel-ai/owl
简单来说,OWL是一个顶尖的多智能体协作框架,致力于突破任务自动化的界限。
在GAIA基准测试中,OWL取得了58.18的平均分,并在开源框架中排名第一。
在这个任务中,OWL智能体非常丝滑地完成了任务:调研总结GitHub仓库里都有什么。
另外,它还能自动帮我们查找今天在伦敦有什么电影。
在这个过程中,CAMEL AI对Manus的技术路线做了一波逆向工程,启动了深度复刻计划。
首先,是把Manus的核心工作流拆成6步。
然后,所有Manus里智能体用到的操作,团队都会给OWL配齐。
启动一个Ubuntu容器,OWL就能随时随地远程办公了。
在项目描述中, 团队表达了对AI智能体的愿景:
我们的愿景是彻底改变AI智能体协作解决现实世界任务的方式。
通过利用动态的智能体交互,OWL能够在多个领域中实现更自然、高效和稳健的任务自动化。
相信我们还将不断见证各类复现项目,打破「邀请码」的垄断。
参考资料:
https://github.com/mannaandpoem/OpenManus
https://x.com/didiforx/status/1897675038972883408
https://github.com/camel-ai/owl
https://mp.weixin.qq.com/s/0AWaSNynyjjY5TpdtKN-3w
文章来自微信公众号 “ 新智元 ”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md