但这也未必是件坏事……
2014年,伊凡·佐克曼向公众发表了一封道歉文章。你可能不认识他,但一定对他的发明无比熟悉——网页弹窗广告。
他的本意是好的,别让格格不入的广告直接插入网页内容里。但好意被滥用了。
软件捆绑加上弹窗广告,在 PC 时代“横行霸道”。那会儿,你不知道下了什么软件,就会引发电脑右下角弹窗接二连三。想关,却误触了跳转,除了脱口而出的脏话,毫无办法。
不成想刚刚迈进 AI 时代,这条路又要重走了。
前一阵,我被 AI 浏览器插件的使用体验刷屏。大多是说为了争夺入口,这些插件悬浮在屏幕右侧,密密麻麻。在选中某个句子时争相跳出,甚至重叠在一起——给人一种穷追猛打的感觉。
强迫症忍不了一点丨网络
我去 Chrome 应用商店一看,好家伙,发现如今的浏览器插件市场已经快被 AI“攻陷”。Chrome 甚至新开了 AI 类板块。
套壳的、不套壳的丨Chrome商店
我过去对于插件的印象,大多是一些作为“助力冲浪”的轻巧工具。而如今这些新兴的 AI 插件“野心”似乎大多了,很多甚至想“包圆”了我的工作。
“AI 太多,用不过来了。”生怕赶不上这一波生成式 AI 浪潮的焦虑感不是没来由。
因为供给端的确迎来爆发,2023年,Github上 AI 项目的数量增长59.3%;AI 开源社区 Hugging Face 上开发者数量涨了四倍。
那么,用户怎么用 AI 的?a16z 统计了用户对网页端 AI 产品的使用情况,Top50 产品中有28%在内容生成类(包括文字,图片,视频,音乐),22%的内容编辑,14%的生产力,10%的通用智能助手(ChatGPT,Claude等);移动端则不同,用户更偏向用通用助理(开屏就是一个 AI Chat 的聊天界面)。
AI迭代很快丨a16z
网页产品适合做更复杂的,多步骤的工作流。在生产力类别里,七款中有六款产品提供了 Chrome 浏览器插件,或甚至只有插件版。插件的合理性就在于“同步运行”,不需要用户离开正在用的软件,大大减少了在两个或更多网页端(或应用端)之间跳来跳去的摩擦感。
我记得在上个月“豆包”发布会上,字节当时展示了其桌面版插件的例子。当用户读 pdf 或写代码时,能划线调出AI,命令其翻译总结和代码注释。坐在我身旁一位许久没有反应的大哥,终于在这时说了声:“这个好!”。
AI 应该设计得尽量离用户近,最好嵌入使用环境。这是 AI 能否被用好的一个前提。
当然,开发者并不满足只将技术做入产品流程里。
AI 应用迭代快,却生命周期短。在之前提到的那份 a16z 榜单,比上一次统计榜单时间过去了半年,Top50 里换了40%的新面孔。QuestMobile 指出,国内生成式 AI 应用活跃率均在 20%以下、三日留存均在50%以下、部分 app 的卸载率在 50%以上。
一些 AI 应用,从打开网页才能用,变成到随时陪伴的插件产品,这是为了以一种更为轻巧的方式实现落地。
浏览器在今天依然霸占着重要的流量入口,搜索又是最为通用和高频的互联网需求之一。他们在浏览器界面上抢占地盘,往前做,尽量往“入口”做,则是为了解决对于用户增长的渴望。
2008 年,比起 60%全球份额的 IE 浏览器,Chrome 只能算稚嫩后辈。但它增长势头很猛——从2009 年的5%,2010年的15%,2012年的31%……谷歌打造的开放生态,与当时微软保持封闭,形成鲜明对比。其中,扩展程序(插件)功不可没。
在既定的开发框架下,第三方开发者用少量开发工作,就能让功能实现。越来越多的开发者被吸引而来,创造丰富的功能打开了浏览器“局限”。用户在上网,但不仅是浏览网页——一个为 Netflix,Hulu 等流媒体设计的插件,“Netflix Party is now Teleparty”,以浮窗形态让人们边看边讨论。有人在插件评论区说,感谢开发者,挽救了一对异地情侣。
这些像游戏里功能性 mod 的插件,能提供更好的阅读模式、暗黑模式,自动同意所有的cookies请求、更好的视频播放模式……真的有站在用户角度。
曾经的一些插件真的有站在用户角度,就像游戏里的功能性mod。比如Super Netflix,支持自选码率丨Chrome商店
浏览器插件伴随 PC 互联网走过繁荣。移动互联网分走了用户大部分精力,影响了一些轻巧插件进而“App 化”,例如,“简悦”一开始只是一个“生成适合中文阅读的排版页面”的插件,后来它逐渐厚重,功能集成了标注,稍后读,导出等,再后来它推出了独立应用。
插件才是“互联网精神”的最好体现丨简悦
移动端应用尽量抢占用户精力的同时,也竖起高墙。这时候人们反应过来,插件才是“互联网精神”的最好注脚,也是最后的余晖。
2019 年,安全公司 Extension Monitor 对 Chrome 商店18万个扩展插件进行了统计,发现人们常用的有这几类,广告拦截、通讯、购物、安全、密码管理器等,偏功能性的居多。
多数人常用插件就那几类丨Chrome商店
关于生成式 AI 的 C 端应用开发,一直有一个讨论:大模型迭代如此之快,更强的底层技术出现之后,是否会覆盖现有在上层应用上的“雕花”?对于软件开发是一个挑战,能否抛开“App开发”的包袱,解决用户的实际问题——搞清楚AI应该在哪里、怎么给人“打下手”。
与之前的状况略有不同。这一次 AI 插件,需要与场景做好结合,才能产生用户价值。
以“搜索”为例。GoogleI/O 期间,负责 Google 搜索的副总裁分享他所观察到的用户行为习惯,“用户不明确要搜什么的时候,通常从一个宽泛问题开始,从搜索结果中得到启发,挖掘,再提问。”
同时,每一次查询背后都有意图,下一步用找来的信息做什么?是总结成大纲,写成 PPT?或者改变语言风格,汇成新闻稿?等等(这也看作今天AI搜索对传统搜索引擎的颠覆)。
这些划线后就会争相跳出的插件,核心用户场景就是“伴读”。用户在浏览网页时,能对内容有选择性地让插件做解释、搜索、翻译、总结、扩写,一键转小红书文案等操作——重新组织和交付信息,围绕核心搜索诉求展开。
在产品设计上,一些插件会把常用的几个功能摆出来,放入划线处悬浮工具条里。比如豆包,甚至还能让用户自定义“技能”(相当于创建一个 bot,或 GPTs)并添加进去。而其他更多功能则列入侧边栏里。
大模型插件的伴读功能丨豆包
一些遵从了插件的“设计原则”,比如 Kimi,更为简洁和“激进”。AI会自动“识别用户意图”和“理解上下文”,有网友测了,一个悬浮按钮一个窗口,不仅能做解释,能翻译,还能解数学题。Kimi另外设置了,呼出右边的悬浮按钮,对页面进行总结和提问对话。
大模型插件解数学题丨网络
浏览器插件不能是网页端和移动端应用的“简单阉割”,有人称,Kimi为了实现“一个悬浮按钮一个窗口”,实则在窗口背后封装了很多 Prompt,根据用户提问来调用,实则有产品思考和技术能力的支撑。
基于基础模型迭代,将会替代掉原有一些内容编辑和生成类的产品价值,比翻译(DeepL 等),文本生成(Jasper 等),语音转录,字幕翻译等等;能将一些垂类做得足够专业能产生更大用户价值,比如财务工作者需要智能报表生成和分析的工具;金融分析师需要垂直知识库和搜索。
一些整合插件几乎成为生产力全家桶丨Monica
一些做整合的插件(比如MaxAI,Monica),自身不开发基础模型(就是大家常说的“套壳”)。这将考验将不同模型的能力抽离,做到具象的场景里的能力,比如当用户没时间看完一个 YouTube 的时候,让 AI 替自己看一遍,总结好。这类插件容易产生的问题是,功能过多,必然显得臃肿。在追求“一站式”的同时,还要兼顾插件本身价值——需求到完成路径最短。
信我,干急活的时候先把这些插件关了丨Monica
过往 20 年,用户的 PC 和互联网使用方式发生了巨大变化,比如本地应用越来越走向云端,云的免下载,跨平台,可协同等优势,也拉长了用户在浏览器上花费的时间。但浏览器似乎还是老样子。
如果你忽略插件带来的拥挤感——几个插件在页面右侧争相蹦出AI搜索总结,生成式AI的确为搜索带来了新的价值。但你总有种感觉,这种改变像缝缝补补一样。
AI 能在浏览器上产生什么用户价值?而不是只在侧边栏提供一个 ChatGPT。
Chrome 之所以能打败 IE,是因为重新设计了浏览器的底层架构,保证了整体性能的稳定和安全。而且从一开始,Chrome 就被当作一个平台(并非只是网页浏览工具)来设计,在开源的 Chromium、Linux 之上,延伸出了扩展程序、ChromeOS。
去年,微软发布了基于 GPT 的全新必应和 Edge 浏览器,相当于直接在搜索引擎内嵌大模型,当时最快最方便用上 ChatGPT 的方法就是下载 Edge 用 Bing。此举让 Edge 用户规模快速增长了 5000 万,日活在 3 月后首次突破 1 个亿。同时期,Edge 的用户量缓步上升,Chrome 则在下降。
但新鲜头过去后,如今 Chrome 还是占据浏览器市场近 2/3 的份额(65.68%),Edge 上涨到 5% 之后就陷入增长停滞,目前停留在 5.26%,排在 Safari(18%)之后。都不要说插件了,Edge 直接重做了个内嵌 GPT 的搜索引擎,这都没能把市场从 Chrome 那里抢来多少。
总的来说,非常多的用户对浏览器有“依赖性”,迁移成本高。谁能解决“浏览器+搜索引擎+AI功能”的融合问题,谁离“人人都想用的 AI”就更近一步。
对于上面的思考,Arc 浏览器有一些革新做法,被认为给平静已久的浏览器市场,掀起来一场水花。它按重要程度对信息分层,重构网页浏览体验;
Arc 通过设计不同空间(Spaces),满足不同场景下的会话需求;重新设计标签页,呈现出信息的层级结构丨Arc
让浏览器功能更贴近AI原生;重塑搜索的信息组织和交付;保持开放,让用户跨应用端体验更加顺滑等等。
Arc 一系列 AI 功能丨Arc
有评论说,Arc 有“苗头”让浏览器不再只是浏览网页的工具,而是一个为开放互联网创建的操作系统。的确,谷歌在将近20年之前就说过这话了。
谷歌近来也有一些将 AI 整合进 Chrome 中的动作。但对于这样一家科技巨头来说,历史惯性太大。
AI 插件“爆发”有一定合理性。不过一旦从应用尽有,到趋于同质化后,大家也略显疲乏。这不,最近有公司的智能助手产品也推出“悬浮球”,争抢又回到了移动端。
文章来源于“果壳”,作者“糕级冻雾”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】Whisper是由openai出品的语音转录大模型,它可以应用在会议记录,视频字幕生成,采访内容整理,语音笔记转文字等各种需要将声音转出文字等场景中。
项目地址:https://github.com/openai/whisper
在线使用:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0