ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
浏览器这根电线杆,贴满了各种AI插件
9098点击    2024-07-31 13:19

但这也未必是件坏事……


2014年,伊凡·佐克曼向公众发表了一封道歉文章。你可能不认识他,但一定对他的发明无比熟悉——网页弹窗广告。


他的本意是好的,别让格格不入的广告直接插入网页内容里。但好意被滥用了。


软件捆绑加上弹窗广告,在 PC 时代“横行霸道”。那会儿,你不知道下了什么软件,就会引发电脑右下角弹窗接二连三。想关,却误触了跳转,除了脱口而出的脏话,毫无办法。


不成想刚刚迈进 AI 时代,这条路又要重走了。


前一阵,我被 AI 浏览器插件的使用体验刷屏。大多是说为了争夺入口,这些插件悬浮在屏幕右侧,密密麻麻。在选中某个句子时争相跳出,甚至重叠在一起——给人一种穷追猛打的感觉。



强迫症忍不了一点丨网络


我去 Chrome 应用商店一看,好家伙,发现如今的浏览器插件市场已经快被 AI“攻陷”。Chrome 甚至新开了 AI 类板块。



套壳的、不套壳的丨Chrome商店


我过去对于插件的印象,大多是一些作为“助力冲浪”的轻巧工具。而如今这些新兴的 AI 插件“野心”似乎大多了,很多甚至想“包圆”了我的工作。


这么多AI插件,都是从哪儿蹦出来的?


“AI 太多,用不过来了。”生怕赶不上这一波生成式 AI 浪潮的焦虑感不是没来由。


因为供给端的确迎来爆发,2023年,Github上 AI 项目的数量增长59.3%;AI 开源社区 Hugging Face 上开发者数量涨了四倍。


那么,用户怎么用 AI 的?a16z 统计了用户对网页端 AI 产品的使用情况,Top50 产品中有28%在内容生成类(包括文字,图片,视频,音乐),22%的内容编辑,14%的生产力,10%的通用智能助手(ChatGPT,Claude等);移动端则不同,用户更偏向用通用助理(开屏就是一个 AI Chat 的聊天界面)。



AI迭代很快丨a16z


网页产品适合做更复杂的,多步骤的工作流。在生产力类别里,七款中有六款产品提供了 Chrome 浏览器插件,或甚至只有插件版。插件的合理性就在于“同步运行”,不需要用户离开正在用的软件,大大减少了在两个或更多网页端(或应用端)之间跳来跳去的摩擦感。


我记得在上个月“豆包”发布会上,字节当时展示了其桌面版插件的例子。当用户读 pdf 或写代码时,能划线调出AI,命令其翻译总结和代码注释。坐在我身旁一位许久没有反应的大哥,终于在这时说了声:“这个好!”。


AI 应该设计得尽量离用户近,最好嵌入使用环境。这是 AI 能否被用好的一个前提。


当然,开发者并不满足只将技术做入产品流程里。


AI 应用迭代快,却生命周期短。在之前提到的那份 a16z 榜单,比上一次统计榜单时间过去了半年,Top50 里换了40%的新面孔。QuestMobile 指出,国内生成式 AI 应用活跃率均在 20%以下、三日留存均在50%以下、部分 app 的卸载率在 50%以上。


一些 AI 应用,从打开网页才能用,变成到随时陪伴的插件产品,这是为了以一种更为轻巧的方式实现落地。


浏览器在今天依然霸占着重要的流量入口,搜索又是最为通用和高频的互联网需求之一。他们在浏览器界面上抢占地盘,往前做,尽量往“入口”做,则是为了解决对于用户增长的渴望。


插件(曾经)为王


2008 年,比起 60%全球份额的 IE 浏览器,Chrome 只能算稚嫩后辈。但它增长势头很猛——从2009 年的5%,2010年的15%,2012年的31%……谷歌打造的开放生态,与当时微软保持封闭,形成鲜明对比。其中,扩展程序(插件)功不可没。


在既定的开发框架下,第三方开发者用少量开发工作,就能让功能实现。越来越多的开发者被吸引而来,创造丰富的功能打开了浏览器“局限”。用户在上网,但不仅是浏览网页——一个为 Netflix,Hulu 等流媒体设计的插件,“Netflix Party is now Teleparty”,以浮窗形态让人们边看边讨论。有人在插件评论区说,感谢开发者,挽救了一对异地情侣。


这些像游戏里功能性 mod 的插件,能提供更好的阅读模式、暗黑模式,自动同意所有的cookies请求、更好的视频播放模式……真的有站在用户角度。



曾经的一些插件真的有站在用户角度,就像游戏里的功能性mod。比如Super Netflix,支持自选码率丨Chrome商店


浏览器插件伴随 PC 互联网走过繁荣。移动互联网分走了用户大部分精力,影响了一些轻巧插件进而“App 化”,例如,“简悦”一开始只是一个“生成适合中文阅读的排版页面”的插件,后来它逐渐厚重,功能集成了标注,稍后读,导出等,再后来它推出了独立应用。



插件才是“互联网精神”的最好体现丨简悦


移动端应用尽量抢占用户精力的同时,也竖起高墙。这时候人们反应过来,插件才是“互联网精神”的最好注脚,也是最后的余晖。


这绝不是电线杆上贴海报那么简单的事情


2019 年,安全公司 Extension Monitor 对 Chrome 商店18万个扩展插件进行了统计,发现人们常用的有这几类,广告拦截、通讯、购物、安全、密码管理器等,偏功能性的居多。



多数人常用插件就那几类丨Chrome商店


关于生成式 AI 的 C 端应用开发,一直有一个讨论:大模型迭代如此之快,更强的底层技术出现之后,是否会覆盖现有在上层应用上的“雕花”?对于软件开发是一个挑战,能否抛开“App开发”的包袱,解决用户的实际问题——搞清楚AI应该在哪里、怎么给人“打下手”。


与之前的状况略有不同。这一次 AI 插件,需要与场景做好结合,才能产生用户价值。


以“搜索”为例。GoogleI/O 期间,负责 Google 搜索的副总裁分享他所观察到的用户行为习惯,“用户不明确要搜什么的时候,通常从一个宽泛问题开始,从搜索结果中得到启发,挖掘,再提问。”


同时,每一次查询背后都有意图,下一步用找来的信息做什么?是总结成大纲,写成 PPT?或者改变语言风格,汇成新闻稿?等等(这也看作今天AI搜索对传统搜索引擎的颠覆)。


这些划线后就会争相跳出的插件,核心用户场景就是“伴读”。用户在浏览网页时,能对内容有选择性地让插件做解释、搜索、翻译、总结、扩写,一键转小红书文案等操作——重新组织和交付信息,围绕核心搜索诉求展开。


在产品设计上,一些插件会把常用的几个功能摆出来,放入划线处悬浮工具条里。比如豆包,甚至还能让用户自定义“技能”(相当于创建一个 bot,或 GPTs)并添加进去。而其他更多功能则列入侧边栏里。



大模型插件的伴读功能丨豆包


一些遵从了插件的“设计原则”,比如 Kimi,更为简洁和“激进”。AI会自动“识别用户意图”和“理解上下文”,有网友测了,一个悬浮按钮一个窗口,不仅能做解释,能翻译,还能解数学题。Kimi另外设置了,呼出右边的悬浮按钮,对页面进行总结和提问对话。



大模型插件解数学题丨网络


浏览器插件不能是网页端和移动端应用的“简单阉割”,有人称,Kimi为了实现“一个悬浮按钮一个窗口”,实则在窗口背后封装了很多 Prompt,根据用户提问来调用,实则有产品思考和技术能力的支撑。


基于基础模型迭代,将会替代掉原有一些内容编辑和生成类的产品价值,比翻译(DeepL 等),文本生成(Jasper 等),语音转录,字幕翻译等等;能将一些垂类做得足够专业能产生更大用户价值,比如财务工作者需要智能报表生成和分析的工具;金融分析师需要垂直知识库和搜索。



一些整合插件几乎成为生产力全家桶丨Monica


一些做整合的插件(比如MaxAI,Monica),自身不开发基础模型(就是大家常说的“套壳”)。这将考验将不同模型的能力抽离,做到具象的场景里的能力,比如当用户没时间看完一个 YouTube 的时候,让 AI 替自己看一遍,总结好。这类插件容易产生的问题是,功能过多,必然显得臃肿。在追求“一站式”的同时,还要兼顾插件本身价值——需求到完成路径最短。



信我,干急活的时候先把这些插件关了丨Monica


插件之后:真AI浏览器会是什么样子?


过往 20 年,用户的 PC 和互联网使用方式发生了巨大变化,比如本地应用越来越走向云端,云的免下载,跨平台,可协同等优势,也拉长了用户在浏览器上花费的时间。但浏览器似乎还是老样子。


如果你忽略插件带来的拥挤感——几个插件在页面右侧争相蹦出AI搜索总结,生成式AI的确为搜索带来了新的价值。但你总有种感觉,这种改变像缝缝补补一样。


AI 能在浏览器上产生什么用户价值?而不是只在侧边栏提供一个 ChatGPT。


Chrome 之所以能打败 IE,是因为重新设计了浏览器的底层架构,保证了整体性能的稳定和安全。而且从一开始,Chrome 就被当作一个平台(并非只是网页浏览工具)来设计,在开源的 Chromium、Linux 之上,延伸出了扩展程序、ChromeOS。


去年,微软发布了基于 GPT 的全新必应和 Edge 浏览器,相当于直接在搜索引擎内嵌大模型,当时最快最方便用上 ChatGPT 的方法就是下载 Edge 用 Bing。此举让 Edge 用户规模快速增长了 5000 万,日活在 3 月后首次突破 1 个亿。同时期,Edge 的用户量缓步上升,Chrome 则在下降。


但新鲜头过去后,如今 Chrome 还是占据浏览器市场近 2/3 的份额(65.68%),Edge 上涨到 5% 之后就陷入增长停滞,目前停留在 5.26%,排在 Safari(18%)之后。都不要说插件了,Edge 直接重做了个内嵌 GPT 的搜索引擎,这都没能把市场从 Chrome 那里抢来多少。


总的来说,非常多的用户对浏览器有“依赖性”,迁移成本高。谁能解决“浏览器+搜索引擎+AI功能”的融合问题,谁离“人人都想用的 AI”就更近一步。


对于上面的思考,Arc 浏览器有一些革新做法,被认为给平静已久的浏览器市场,掀起来一场水花。它按重要程度对信息分层,重构网页浏览体验;



Arc 通过设计不同空间(Spaces),满足不同场景下的会话需求;重新设计标签页,呈现出信息的层级结构丨Arc


让浏览器功能更贴近AI原生;重塑搜索的信息组织和交付;保持开放,让用户跨应用端体验更加顺滑等等。



Arc 一系列 AI 功能丨Arc


有评论说,Arc 有“苗头”让浏览器不再只是浏览网页的工具,而是一个为开放互联网创建的操作系统。的确,谷歌在将近20年之前就说过这话了。


谷歌近来也有一些将 AI 整合进 Chrome 中的动作。但对于这样一家科技巨头来说,历史惯性太大。


AI 插件“爆发”有一定合理性。不过一旦从应用尽有,到趋于同质化后,大家也略显疲乏。这不,最近有公司的智能助手产品也推出“悬浮球”,争抢又回到了移动端。


文章来源于“果壳”,作者“糕级冻雾


关键词: AI , AI插件 , AI浏览器 , AI应用
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
语音转录

【开源免费】Whisper是由openai出品的语音转录大模型,它可以应用在会议记录,视频字幕生成,采访内容整理,语音笔记转文字等各种需要将声音转出文字等场景中。

项目地址:https://github.com/openai/whisper

在线使用:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0