图片来源:NotebookLM
Z Highlights
01 老树开新花,加入音频能力一夜走红
NotebookLM 是谷歌开发的一款实验性的 AI 驱动的云笔记本应用。它结合了 Gemini 1.5 Pro 的长文本理解和多模态能力,能够处理和分析用户上传的文档内容,包括 Google 文档、幻灯片、PDF、文本文件、网页链接等。
NotebookLM 会基于用户提供的资料,结合 LLM 和 RAG(检索增强生成)能力执行各种任务,例如生成摘要、提纲、常见问题解答、学习指南等内容。
与对话或者搜索形式的 AI 产品相比,NotebookLM 更注重信息的组织、检索和验证。更适合需要精确引用和深入研究特定资料的场景,如学习研究、法律分析、商业报告等。
(图源:NotebookLM )
至此,NotebookLM 作为一个技术大厂的实验型产品,只能称得上中规中矩。让 NotebookLM 一举出圈的,是近期新加入 Audio Overview(音频概览)。Audio Overview 直译为“音频概览”并不能完全反映它的能力,因为它比文本摘要更进一步,不仅提取了关键信息,还像真人对话一样将话题娓娓道来,两个对话人有时停顿,有时欢笑,深入浅出引人入胜。ZP 上传了网传NotebookLM技术来源的论文,仅几分钟就生成了关于这篇论文的评述,效果惊艳。
(图源:Z Potentials )
02 Karpathy 盛赞,点亮 LLM 的交互新范式
前 OpenAI 科学家 Andrej Karpathy 也对 NotebookLM 的 Audio overview 给出盛赞,认为 NotebookLM 像 ChatGPT 一样,点亮了用户与 LLM 交互的新方式。
(图源:Twitter@Karpathy)
Karpathy 认为大型语言模型的能力正在迅速提升,包括智能水平(IQ)、记忆能力(上下文长度)、多模态处理等方面。相比之下,将这些能力打包成实际产品的用户界面和用户体验(UIUX)设计却相对滞后。
NotebookLM 将双人对话播客的形式,作为主要的用户界面,解决了使用大型语言模型时的两个主要'享受障碍”:一是用户常常不知道该说什么或问什么,在双人播客格式中,提问的任务也交给了 AI。二是,阅读需要付出努力,播客格式让用户可以轻松地倾听。
03 知识内容生产和消费方式彻底改变
Audio Overview 之所以听起来如此出色,业界人士推测关键线索可能在于 Google Research 的项目之一 SoundStorm。SoundStorm 项目可以根据脚本和两种不同声音的简短音频示例,生成引人入胜的完整对话音频,生成速度很快在 TPU-v4 上能在 0.5 秒内生成 30 秒的音频。此外,SoundStorm 的论文提到,它可以通过提示可靠地控制说话者特征
Audio overview 是否脱胎于 SoundStorm 尚未可知,用户侧的反响和创意用法确是实在发生了。
有用户用 NotebookLM 生成一本书的书评:
(图源:Twitter @adri_barreda)
有用户将 4 个小时的超长播客生成为 11 分钟的播客:
(图源:Twitter @shinybraindev)
还有人上传 200 页文件,生成了今日说法栏目:
(图源:Twitter @omooretweets)
人类世界充满了听觉信息,Audio Overview 非常适合将高密度文字内容转化为适合听觉的材料。可以预见知识类信息的生产和消费将会发生重大变化,AI 还在持续革命人类的学习方式。
文章来源于“ Z Potentials”,作者“ Z Potentials”
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI