得益于自由开放的Web,浏览器成为我们探索数字世界的核心入口,社交、娱乐、信息获取、生产力,它几乎可以承载我们全部的数字生活。
然而,在办公室中,键盘的敲击声此起彼伏,鼠标的点击声不绝于耳。
每天,我们平均要打开40个网站、切换26个标签页、填写20张表单。本该是助手的浏览器,却让我们成了数字世界的劳工。那些本该探索世界的指尖,被困在重复操作的循环中;那些本该用于创造的时间,被浏览器分割成信息碎片。
当AI已经开始深刻改变我们的工作与思考方式,浏览器这个「入口」本身,似乎还停留在上个时代。
时代需要一个既能提升传统浏览效率与体验,又能智能执行复杂任务的新浏览器。
它理解你的意图,将繁琐的点击化为一句简单的指令,将多个网站整合成智能工作流,在你需要时提供恰到好处的帮助,比如表单自动填充、标签页自动管理;同时,它也拥有强大的「自主行动力」,在你授权下,作为一个可靠的助理,为你处理那些跨越多个网站的繁琐事务。
这不仅是浏览器的升级,更是一场让工具更好服务于人的变革:使人类挣脱「工具的工具」的枷锁,让产品回归生产力服务本质,让每个人重获时间的主权。
浏览器在全球有30亿用户,几乎是所有用户最常用、最熟悉的应用。无论是查看信息、观看流媒体,还是使用SaaS应用,浏览器都承担了「总入口」的角色。
在全球SaaS生态下,浏览器已发展为类似操作系统的地位。例如,Chromebook的ChromeOS直接将浏览器作为主要用户界面,强调云端存储和多重安全防护,体现了浏览器在操作系统层面的重要性。
浏览器的形态已经多年未变,但在大模型和Agentic AI的推动下,浏览器正从「信息浏览工具」升级为「行动与工作流聚合智能体」。
这为新玩家带来了类似于iPhone颠覆诺基亚的机遇:只要抓住「浏览器+AI+工作流」这三个关键要素的融合,并为用户提供颠覆性的交互与自动化体验,就有可能在这个看似饱和的市场中实现弯道超车。
以往,浏览器分为三种:
而Fellou尝试开创第四种浏览器:Agentic Browser行动型浏览器,侧重端到端自主行动,一种集成了具备思考和行动能力的智能代理的浏览器,其不仅展示信息,更能根据用户高层目标自主拆解任务、跨界操作并完成端到端任务交付。
专为忙碌的上班族、知识工作者、创业者以及高效工作者打造,让你不再为重复性网络操作浪费宝贵时间。
只需一句话指令,Fellou就能将繁琐的在线任务自动化、调研的自动化——无论是查找资料、提交申请、在线下单还是研究新领域,调研产品或者行业,都将变得轻松快捷,真正让你体验到人工智能时代的高效服务。
换句话说,Agentic Browser不仅是一个信息展示和交互的浏览器,更是一个能够主动替用户执行复杂任务的数字助手。
用户只需要提出一个意图或目标,浏览器内嵌的智能代理便能自主进行信息检索、数据整合、操作执行等多步骤流程,从而大幅提升用户的生产力。
Fellou将Browser、Agent、Workflow Automation三者整合成Agentic Browser:
这三者的结合能够创造出「可思考、可操作、可执行」的闭环,让浏览器不再仅仅是信息载体,而是一个具备行动力与自动化能力的「多功能工作平台」。
此外,Fellou还在传统浏览器的基础之上增加了对本地电脑的控制能力,使其成为互联网与本地空间的桥梁,在处理用户任务时同时可以拥有Web应用与本地的Context,在数字世界内拥有无限的行动空间和跨平台任务处理能力。
这种全新架构使得Fellou从传统的信息展示工具转变为真正「帮你工作」的智能生产力平台,完全解放用户双手,让复杂任务在毫无干预下自动完成,实现从意图到结果的一站式交付。
Fellou主要由四大核心能力组成:
Fellou不同于市面上任何传统浏览器和AI浏览器。传统浏览器主要用于展示内容,用户需要手动点击、复制、填写表单等一系列重复性操作,而这些操作往往分散在多个标签页和不同平台之间,无法实现高效的跨界整合。
Fellou推出了独特的Deep Action功能。用户只需要一句话,Fellou就能自动解析指令、智能拆解任务,并跨多个网页和系统调度操作,从数据采集、表单填写到最终报告生成,整个复杂工作流均能实现一站式无缝交付,让您彻底摆脱繁琐操作,释放双手,专注更高价值的决策与创新。
实际上,用户在浏览器上的行为可以大致分为两类:
Prompt:在小红书上找小米SU7的好评,报告用中文英文双语
Preview:https://chat.fellou.ai/report/f01fcf27-09e1-45b2-ae87-8e4315f5bc63
Prompt:在LinkedIn找有C++经验的浏览器工程师,需要给出工程师的介绍,并附上工程师的LinkedIn的链接
Preview:https://chat.fellou.ai/report/2e21f461-68ef-4e6a-abd1-37511319f841
Prompt:调研全球「低代码/无代码平台」发展趋势,找出Top10代表性公司,分析它们的产品差异、典型客户案例和商业模式
Preview:https://chat.fellou.ai/report/share/low-code-no-code-market-report-E7Fdx2ww
为验证生成的报告效果,Fellou团队找了60个用户测评,分为五大维度(准确性、描述清晰性、思考深度和广度、可读性),和Deep Research、Manus、Perplexity做了打分比较,Fellou综合评分为最高,其中可读性>表述清晰性>准确性>思考深度和广度:
同时,从执行速度层面来看,Fellou也优于其他相似产品,在49个任务中,Fellou的平均耗时仅为3.7分钟,相比较Manus的18.6分钟和OpenAI DeepResearch的11.5分钟皆有显著的速度优势:
Prompt:关注此文中的所有Twitter账号https://mp.weixin.qq.com/s/Gjts6U3KgjVsW3fXYjHtcQ
Prompt:打开亚马逊,搜索NVIDIA RTX 4060显卡,按可用性和客户评分进行筛选,然后将评分最高的型号添加到我的购物车
Prompt:根据Fellou官网内容,自动发布Fellou产品的推广内容到Twitter
Prompt:请将Product Hunt网站上排名前8的产品名称和介绍编写到我已打开的Notion笔记页面中
Fellou的自动化Workflow依托于Fellou团队自研的浏览器使用框架Eko,其以生产级可干预特性、更快的执行速度、更低的执行成本(Fellou单次任务的执行费用在3毛人民币到3元人民币)显著优于同类产品。
Eko框架在执行网页任务时平均速度比Browseruse框架快2.83倍
在生产过程中,Hook系统允许实时监控任务执行,并可以通过人工或AI干预来调整行为
更多用例可访问fellou.ai/use-cases查看
相比起传统的对话式浏览器(Conversational Browsers),Fellou核心优势包括:
Fellou正在重塑人工智能代理与人类之间的生产关系,不再满足于被动应答,而是以一种充前瞻性的方式主动为用户服务,为用户提出需求,由用户来原则。
不同于传统产品只能被动响应用户指令,Fellou利用先进的深度语义理解和上下文记忆技术,实时捕捉用户在各个网页上的操作轨迹,并不断积累用户的行为数据和操作习惯——从常访问的网站到重复执行的任务,都成为它记忆的一部分。
这种「数字记忆」不仅仅是数据的堆叠,而是一种对用户工作模式和习惯的深刻洞察。
正因为具备这样的能力,Fellou能够超前识别用户潜在的任务需求:当它察觉到用户即将进行某项重复性操作,或发出一个隐晦的需求信号时,Fellou会主动发出询问,提醒用户是否需要提前介入或直接接管任务。
用户无需再花费精力详细描述需求,而能感受到Fellou似乎早已预知下一步,并用温暖而精准的方式将服务送到用户手边。
在搜索旅游攻略的时候主动推荐,一键打开相关网页
这种主动服务不仅显现了人工智能技术的演进,更是一种全新的数字劳动体验:在Fellou的陪伴下,用户仿佛拥有了一位善解人意的数字伙伴,它不仅能完成任务,更懂得关怀用户的日常压力与高效需求。
正如哲学家所探讨的「技术即关怀」,Fellou以超越传统工具的智能和敏感,赋予了数字工作一种温度和情感,让生产力的提升不再冰冷,而是充满人性化的温情与智慧。
Fellou非常重视Agent在终端用户实际生产环境中的表现,Fellou认为Agent的执行环境需要划分为本地、本地虚拟化和云桌面的方式,用以处理不同的任务。
并行执行的「影子空间」,有效提升了用户和Agent的协作体验
影子空间的核心技术基于操作系统虚拟化,通过构建精密的虚拟容器实现环境高效隔离。
在此虚拟环境中,Fellou得以安全运行,同时共享Session会话信息,从而实现网站的无缝免登录访问。
AI Agent在虚拟环境中模拟人类的鼠标与键盘操作,驱动Fellou执行各类复杂任务,大幅提升工作效率与用户体验。
在Fellou的世界里,智能不仅仅是技术产物,而是一种全新的互动方式,就像人与人之间的连接。正如创始人谢扬所言,人与智能的关系应当建立在相互选择、深度互动与彼此支持之上。
Fellou致力于打造一个自然且开放的平台,让每个用户都能将自身的经验和能力沉淀为一个独立的垂直Agent,这些Agent不仅可以帮助自己,更能在社区中共享、相互学习,为他人提供智慧服务。
在这个平台上,每位用户不仅能发布自己独特的经验,打造个性化的对话智能体;同时,也可以将自己在执行某项任务过程中形成的操作序列封装为一个完整的工作流,供其他用户直接调用,实现真正意义上的行动智能体。
这里,每一个Agent都是智慧与经验的结晶,是人类对自身能力的一种数字化沉淀和再造。
对于高代码开发者,Fellou提供了Eko Framework——一套通过自然语言设计和部署高效Agentic Workflow的开发框架,同时是开源框架Browser use的生产级进阶版本。
Eko允许开发者以自然语句编写、调试和优化工作流程,将创意迅速转化为智能化操作模型。
在Eko的支持下,开发者不仅可以自定义工具,实现全新的行为模式,还能通过Hook机制在Agent执行过程中动态干预和调整,从而保证每一个工作流都足够灵活、精准并符合实际生产需求。
这一智能体生态体系不仅打破了传统浏览器只是被动信息展示的局限,更将智能与人类的交互提升到了「共生」层面。
Fellou让每个人都能成为智能生态的一部分:你可以将自己的经验沉淀为Agent,既为自身赋能,也为社区贡献智慧;你可以通过开放平台不断发现和学习他人的智能方案,共同推动整个生态的进化。
正如人与人之间通过交流建立起彼此的信任和合作,Fellou正在构建一个以「智能体」为媒介的全新数字生态,让技术与情感、经验与创新在这个平台上自由流动,携手赋能每一个用户。
混合反馈的经验学习
生产级的智能体一个关键挑战在于:如何让智能体不仅依赖环境交互来持续优化行为,还能从结构化的失败反馈中获得改进。
Fellou提出了一种混合反馈经验学习(Hybird Feedback Experience Learning)框架:当基于浏览器的智能体在执行任务过程中失败——无论是由于查询模糊、工具使用错误,还是规划错误——都会触发一个次级分析机制。
在这一阶段,人类监督者或大型语言模型(LLM)将对失败的执行轨迹进行回顾性分析,从中提取出可操作的经验洞察,例如误解、次优决策点或被忽视的交互机会。
混合反馈的经验学习架构
这些提炼出的经验随后被注入至结构化的经验库中,形成一个不断扩展的「失败感知型示范语料库」。
当智能体未来再次遇到类似查询或情境时,基于检索的泛化机制使其能够主动调用此前的纠正策略,从而降低重复失败的概率,加速任务掌握过程。
这一混合机制整合了检索增强生成(RAG)与人类参与监督的优势,使智能体的经验库不仅是自我生成的,更是经过反思性丰富的。
它标志着迈向具备自我纠错能力的智能体的关键一步,这种能力建立在真实世界交互与元认知分析的双重基础之上。
Fellou是由Authing身份云创始人谢扬创建的Agent产品,他在2019年创办了Authing身份云,为企业和开发者提供事件驱动的身份认证云服务。
截止2024年,Authing已服务700+客户和数亿用户,平台拥有数万开发者,每月有千万级认证次数,获得过多家基金数千万美元投资。
同时值得注意的是,Authing在美国最大的竞争对手Okta在2024年投资了一家名为Browserbase的云浏览器Infra公司,这也表明了浏览器相关技术和产品在全球的关注度之高。
据悉,Fellou即将开源Agentic Browser的评估Benchmark,以用户的实际生产场景和用户体验为中心,构建跨环境、跨应用、跨设备的Agent任务集,用以评估Agentic Browser提高用户在真实生产环境下生产力的表现。
目前,Fellou已开启全球内测,提供PC、Mac(Apple芯片和Intel芯片)版供下载使用(fellou.ai/download),预计在今年下半年会开放Windows版和移动版。
文章来自微信公众号 “ 新智元 ”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0