ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Kimi用浏览器插件落地AI:比网页方便,但功能局限
4187点击    2024-07-10 19:01

初创公司月之暗面旗下的 Kimi 智能助手,可能是国内大模型市场上最大的一匹「黑马」,几乎从今年春节之后就开启了一路狂飙,很快就成为了二级市场和 AI 圈内议论的焦点。


就算到了 6 月,Kimi 的网站访问量在 AIGCRank 的统计中依然遥遥领先于其他 AI 聊天机器人和 AI 搜索引擎,包括百度文心一言和秘塔 AI 搜索等一众 ,位列国内第一。


更重要的是,凭借长文本处理的优势、产品层面的尝试以及免费使用,Kimi 获得了用户的认可和青睐:


从长达 80 集的《甄嬛传》剧本到 90 万字的《三体》原著的提炼和总结,从链接到各种格式的文件都能进行快速总结和解答,越来越多普通用户日常使用 Kimi 用于工作、学习和娱乐,并分享到社交网络上。


然而真正深入到用户场景之中,网页版的产品形态固然有其优势,也有其局限性,尤其是对于一款需要高频使用的前台应用。所以就在最近,Kimi 终于推出了官方浏览器插件:


Kimi 浏览器助手。


Chrome 扩展商店截图,图/雷科技


Kimi 浏览器助手可以免去很多繁琐的步骤,不光是不用跳转到 Kimi 主页才能进行一系列的询问和处理,还可以直接在正在浏览的网页中选中相关文本,让 Kimi 进行解释或拓展等处理。


这不是第一款 Kimi 的浏览器插件,此前就有开发者基于 Kimi 网页版开发了第三方的浏览器插件,比如 Kimi 阅读助手等。但 Kimi 官方一直没有动作,一度让人以为官方不看好或是已经放弃了浏览器插件的开发计划。


而在体验完 Kimi 浏览器助手之后,坦白讲,并没有看到太多惊喜。小雷从没有期望它能够像网页版一样提供完整的能力,但作为网页浏览的助手,就算相比第三方插件,Kimi 浏览器助手也还是有很多有待改进的地方。


用好 Kimi,从浏览器助手开始


首先需要指出的是,目前 Kimi 浏览器助手只支持了基于 Chromium 引擎的浏览器,如 Google Chrome。换言之,Safari、Firefox 等采用其他引擎的浏览器并不支持。(多提一句:Chrome 之于 Chromium,就如 Android 之于 AOSP。)


但考虑到现在绝大部分的浏览器都是基于 Chromium 引擎进行开发,大部分 Kimi 网页版的用户都还是可以安装使用,在 Kimi 主页的侧边栏找到「浏览器助手」再跟着引导安装即可。


图/Kimi


另外从介绍页,也能看出 Kimi 浏览器助手核心的功能——选字解释、文章总结,以及侧边栏模式。这里单独说下侧边栏模式,实际上很多 ChatGPT 的相关插件早就用上了这种交互设计,包括微软的 Copilot 甚至可以实现系统级的侧边栏交互。


因为可以平行于正在浏览的网页,侧边栏的对话模式在事实上成为了各家 AI 聊天机器浏览器插件的标配。


不过 Kimi 对侧边栏模式的看法可能有些不同。在应用场景上,Kimi 浏览器助手在介绍中更强调在写作时,使用侧边栏模式进行持续对话和搜索。


图/Kimi


在其他场景下,Kimi 更推崇另一种模式。


在插件配置上,可以看到 Kimi 浏览器助手默认打开「选取文字后显示 Kimi 按钮」以及「Kimi 悬浮按钮」,同时窗口展示默认是「全局浮窗」而非「侧边栏」,从侧面说明了 Kimi 浏览器助手在设计上的偏好和想法。


Kimi 浏览器助手设置界面,图/雷科技


但这些功能和交互设计,到底用起来如何,才是最关键的。


浏览器助手,让 Kimi 更好用了吗?


Kimi 浏览器助手的用法很简单,你可以直接将其当作是一个 Kimi 的对话启动器,通过快捷键或者是点击浏览器右下角的悬浮按钮,就能呼出 Kimi 的对话窗口。


Kimi 浏览器助手启动界面,图/雷科技


这里的对话窗口非常简单,最核心的就是「输入框」和「总结全文」,此外还能一键跳转 Kimi 主页,看到呼出对话窗口的快捷键。


接着,你就能询问 Kimi 各种问题,比如 Kimi 为什么要推出 Kimi 浏览器助手这个插件,甚至调用 Kimi 推出的各种智能体。但显然,不同于网页版的完整对话窗口,你不能在这里上传各种文件,必须回到官网主页进行处理。


不过,Kimi 浏览器助手的产品定位决定了它不只是一个「启动器」,也不需要「全能」。


事实上,Kimi 浏览器助手的核心在于「浏览助手」,是基于用户正在浏览的网页。比如最近广受关注的罐车运输乱象,在阅读相关新闻时,可以呼出 Kimi 对话窗口,一键总结文章内容。


图/雷科技


当然,用户也可以单独选中「煤制油」或者其他不理解的词或句,再点击出现的 Kimi 按钮,Kimi 就会结合上下文解释一下这个普通大众并不太熟悉的概念。


图/雷科技


而在解释过后,选中部分的文本还会留下「下划线」,只要将光标移至下划线部分,就会弹出之前与 Kimi 的对话。


同时,作为雷科技的一名编辑,小雷也经常需要了解很多此前并不了解的信息,往往需要花费不少的时间,尤其是涉及外文材料的时候。


比如最近有 AMD 前员工在 X(原 Twitter)上分享了他在 AMD 工作期间的经历,其中就谈到了 AMD 曾经差点与英伟达合并的故事。当找到最初的信息源,首先就可以呼出通过插件呼出 Kimi 的对话窗口,让 Kimi「总结全文」,用中文概括十多条英文推文:


直接省去翻译、阅读和梳理等步骤,节省了时间,提高了效率。


而在确认他有提到 AMD 差点并购英伟达之后,我还能继续让 Kimi 展开讲讲 AMD 差点并购英伟达的部分,进行更详细地了解。


图/雷科技


从回答来看,Kimi 也确实给出了让人满意的答案,不仅完整涵盖了 AMD 前员工分享的相关信息,还将其梳理成「AMD 的收购尝试」「市场地位和战略」等 6 个部分,方便理解故事背景。


甚至如果不需要总结全文,可以让 Kimi 直接跳到这一步进行处理。


不过,Kimi 浏览器助手的帮助也仅限于正在浏览的网页。比如前面提到的油罐车事件的报道,如果问到文章没有涉及的问题,Kimi 就开始「答非所问」了:


图/雷科技

连编都不想编。


与此相对的是,如果是在网页版中将链接丢给 Kimi 再询问,先不谈回答的质量,但至少可以得到相对应的回答。目前来看,Kimi 浏览器助手应该是限制了大模型的「信息来源」,将其限制在浏览的网页中。


图/雷科技


但 Kimi 浏览器助手的这种策略,并不符合用户的实际需求,我们在浏览网页遇到疑问的时候,需要的解答不太可能由一篇文章能够全部涵盖的,往往需要发挥大模型更广泛的「知识储备」和「联网能力」。


相比之下,如果是要从长篇的 PDF 文件甚至一组论文中高效地获取信息,可能才需要将大模型的「信息来源」限制在上传文件之中。


此外,Kimi 浏览器助手还有不少地方有待改进。


比如前文已经提到了相比网页版,Kimi 浏览器助手对话窗口的功能并不齐全,能力也受到了一定限制,小雷在使用过程中就多次想跳转到网页版。但实际使用中,只要开启了对话,就再也看不到初始界面一键访问 Kimi 官网的快捷方式,当然更不支持在网页版中打开该对话。


又比如在同一网页内,如果在多处选中解释,实际会产生 N 个对话,分散在文章的各处,即便点击浏览器右下角的「Kimi 悬浮按钮」,也没办法快速回顾之前的对话列表。


总的来说,相比第三方 Kimi 的浏览器插件,官网推出的这款 Kimi 浏览器助手有着更差异化的定位,比较核心的作用是对文章进行快速总结,以及对文章中不了解的概念和词语进行简单的解释,并不鼓励用户进行多轮对话,来深入了解和研究一个主题。


写在最后


经常尝试各种 AI 工具的读者应该不难发现,在这一轮的 AI 大潮中,很多产品逻辑发生了改变,移动时代的「App 先行」到了 AI 时代就摇身一变成了「Web 先行」,从 ChatGPT 到谷歌 Gemini,从百度文心一言到 Kimi、阿里通义:


概莫能外。


原因其实不难理解。以 AI 聊天机器人为例,日常办公和学习是目前最为核心的使用场景,从这个角度,PC 端无疑是比移动端更重要的平台。同时在 PC 端,浏览器是最为核心的软件,浏览网页也是 PC 用户最主要的需求之一。


因此,浏览器插件也就成为了 AI 聊天机器人提高用户体验、提高用户使用频率的关键途径之一。Kimi 浏览器助手的推出,正是为了满足这一需求,核心就是进一步简化用户在浏览网页时处理信息、获取信息的过程。


Kimi 第三方浏览器插件,图/雷科技


而在 ChatGPT 一直没有推出官方浏览器插件的当下,AI 聊天机器人的浏览器插件实质还处于草莽阶段,第三方和官方都没有形成一套公认且行之有效的交互设计。


至于 Kimi 的尝试,虽然没有带来太多的惊喜,但 Kimi 浏览器助手「轻度使用」的产品定位,对于不少 Kimi 用户来说仍是一个可以提高日常使用体验的手段。


文章来自于“36Kr”,作者 “雷科技”


关键词: Kimi , AI , AI插件 , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file