ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
NotebookLM核心负责人访谈: 项目不到 10个人,体验惊艳全球,但它还只是个技术demo
6633点击    2024-10-16 16:22

难以置信,在 2024 年,Google 还能推出全行业叫好的惊艳项目——不是商业化产品,而是在设计、体验上让行业学到一课的小项目。


在上周的 OpenAI Dev Day 上,Sam Altman 被问到除了自家产品外,最喜欢的 AI 产品是什么时,他点名提到了 NotebookLM。


或许,语音作为交互入口来重塑用户产品体验的时候到了。


文本生成播客,甚至被视为 AI 落地的新场景之一,国内外也迅速出现了很多文本生成播客的新产品,比如独立开发者艾逗笔最近上线的 PodLM。


最近,NotebookLM 团队的负责人 Raiza Martin 接受了 Lenny's Podcast 的采访,复盘了 NotebookLM 如何从 0 到 1,从谷歌内部一个「20% 项目」变成一个拥有 6 万用户 Discord 社区、社交媒体上备受赞誉的热门产品的经历。Founder Park 根据播客的音频进行了文字的编译处理。


一些有意思的点:


  • NotebookLM 的音频功能,出发点依然是为锤子找钉子。语音技术影响了负责人对 AI 技术的理解和认知,她为语音找到了现在这个应用场景。NotebookLM 不是真正的「落地应用」,它是一个落地可能性的 demo。对 Google Labs 来说,它真的只是找钉子,不需要钉子赚钱。——ChatGPT 诞生时也是一样。

  • 当有人利用 NotebookLM 的能力「越狱」生成恶搞内容时,负责人整晚睡不着家,这对她的工作、对 Google、对行业会造成怎样的负面影响?担惊受怕一晚上。

  • NotebookLM 的很多想法启发来自于对于知名专栏作家、笔记产品狂热用户 Steven Johnson 工作流程的深度观察,团队一直在践行的一点是:多观察用户行为,思考如何与用户或人们真正相处一段时间。

  • NotebookLM 最主要的用例其实是很多学生将学习资料或者论文转换成音频指南。但大家最喜欢的是把个人简历或者季度 Review 传上去,听听 AI 怎么花式夸自己。

  • 不要追求完美发布。先推出产品的基础可用版本,然后根据用户反馈不断迭代优化。这种策略能帮你发现意料之外的见解和用户需求,从而更好地打造最终产品,也就是 Build in Public。

  • 在大型组织内拥抱创业心态:Google Labs 比典型的 Google 团队运作时有更少的流程和更多的敏捷性。这使他们能够更快地行动并快速迭代,很像一个创业公司。

  • 团队的未来预期是:能够拥有一款 AI 编辑界面,可以完全重新组合,支持任何输入和输出。无论是视频、音频、电子邮件、LinkedIn、Twitter,任何我们关心的东西,你都有一个 AI 界面,可以生成任意格式的内容。让用户自己决定想要消费的内容形式。


01 


最初设想的场景是读论文


Lenny:NotebookLM 最初的用例似乎是科学论文,把它变成播客,这样就不用阅读全文了。这是最初的用例之一吗?


Raiza Martin:这是常见的用例之一。我认为这是一个非常有趣的用例,因为每个人都想了解 AI 的最新进展,都想了解已发表论文的最新动态。但大多数情况下,阅读论文需要时间,内容密集且复杂,需要分解其中的概念。最主要的用例其实是很多学生将类似的这些学习资料转换成音频指南。


Lenny:两个最近的用例非常有趣,一个是 Andrew Karpathy,他是 NotebookLM 的忠实粉丝。他不断在推特上表达对你们产品的喜爱。他创建了一个关于历史谜团的播客系列《历史上的谜团》(Histories of Mysteries)。他把维基百科上所有历史谜团的故事都做成了一个 10 集的播客,可以在 Spotify 上收听。



试听链接:https://open.spotify.com/show/3K4LRyMCP44kBbiOziwJjb?si=432a337c28f14d97&nd=1&dlsi=b65e1f5feb0545ca

Raiza Martin:太棒了,这本身就是一个很棒的产品。

Lenny:另一个最有趣的例子是有人上传了一段重复「便便」和「放屁」的文字,NotebookLM 生成的播客中主持人对它做了一个非常有见地的分析。



根据便便文档生成的播客


Raiza Martin:是的,当我看到那个的时候,我正准备睡觉。我当时很担心这是个超级负面的越狱内容,然后搞得我整夜睡不着觉。但是当我听完之后发现,这其实是个挺不错的输出,它又有趣又展现了我们这个音频产品的强大功能,生成的播客又风趣又有逻辑。


Lenny:这真的非常好玩,他们两个「人」必须围绕你给他们的任何东西展开 10 分钟的对话——虽然听起来感觉有点欺负他们。


Raiza Martin:是的,真的很有意思。我不知道你是否看过关于鸡肉的那个,也跟这个很像。有人上传了一个看起来很像研究论文的 PDF 文件,格式上完全就是篇论文,但里面只写着重复的「鸡肉」这个词,整篇文档都写着「鸡肉」。播客里有一段有趣的对话是这样的:「看看这个,这是一篇研究论文,里面的鸡肉比肯德基的还多。」太好玩了。


关于鸡肉的论文与讨论:


https://www.reddit.com/r/notebooklm/comments/1fwz5eh/the_google_podcast_duo_get_almost_9_minutes_out/


最有趣的是,我丈夫不知道我的工作内容。大多数时候,我尽量不在家谈论工作。但是我会在家里一遍遍地大声听这些生成的播客——你知道的,戴耳机戴累了,所以我直接外放。他很疑惑:「你在听什么东西?这就像一个永无止境的播客。」这太有意思了。我不得不解释说,这只是我工作上需要做的事情。这真的很有趣。他实际上完全没有听出来这些是 AI 生成的。


Lenny:我尝试着用 NotebookLM 为我妈妈写了一篇自传,一篇关于她人生的简短自传。我们有它的 PDF 版本。所以我把它输入 Notebook,然后生成了播客并发送给她。她超级惊讶。


Raiza Martin:这很有趣,太可爱了。其实我也为我爸爸做了个播客。


Lenny:你做了什么?


Raiza Martin:我用了爸爸的简历。他在一家医院工作,我把他在医院的简介放进去,生成了一个音频概述。这太有趣了,因为我的父母都在医疗行业,不太了解我的工作。我认为这是他们第一次觉得,哦,我的工作非常有趣。


Lenny:那么,沿着这个思路,你见过哪些其他令人惊讶、搞笑的用例,特别是生成播客这部分?


Raiza Martin:有一些和简历有关的用例非常有趣。比如我们谷歌内部有季度 review,我们必须为自己撰写绩效评估。大量谷歌员工给我发消息,我甚至都不认识他们,他们说:「哇,这大大增强了我的自信心,只需上传我自己的 review 笔记,然后就能生成一个音频概述。」大家的感觉非常好,因为播客里的主持人总是对大家的工作成果非常兴奋,有两个主持人在你耳边夸你的感觉真的很棒。


02 


在音频之前,


团队已经探索内容交互 2 年


Lenny:让我们深入谈谈音频概述,特别是你们的这个播客功能。你们称之为 Deep Dive,这个功能的缘起是什么?


Raiza Martin:音频功能是我们在谷歌 I/O 大会上预览的一项功能。NotebookLM 推出后,用户对这个基于文本互动的界面非常感兴趣。我们也在思考,如何通过结合音频模型让体验更进一步。于是,谷歌内部的另一个团队提议,我们试试用更强大的音频模型来提升这个体验。然后我们开始实验,发现给它输入一些信息,比如上传简历,系统就会生成一个让人惊喜的音频概述。


Lenny:最初推动你们开发这个音频功能的核心问题是什么?


Raiza Martin:构建产品的方式一直是从问题出发,然后考虑如何解决问题,如何以有意义的方式为人们解决问题。而在谷歌实验室(Google Labs),我们是从技术出发。


这其实是一个非常有趣的起点,你首先在想:「这项技术的实际应用是什么?我该如何找到答案?」我们已经找到了一些很不错的方法,比如直接发布一个基础的工具,然后研究人们如何使用它。这是一种不错的方法,但我们也会尝试提出一些更具体的假设,来预测这个产品的形态,以便从中获得最大的学习成果。


对于音频功能而言,关键在于:我们已经有了与文本交互的能力,但输出仍然是枯燥的文本。事实上,我个人非常喜欢语音模式,我经常使用语音输入和语音输出。


我在早期尝试时发现,语音的互动改变了我与技术交互的方式,改变了我对技术的感受,甚至影响了我在此过程中实时思考的方式。因此,我们考虑如何以一种简单易懂的方式向人们介绍这项技术,让他们能够轻松获得它的价值,并从中获得乐趣。所以,我认为乐趣对我们来说非常重要。我们一直在思考如何让一种技术的应用变得酷炫,希望我们做到了。


Lenny:在我看来,这感觉非常类似于一个「ChatGPT 时刻」,技术已经存在,他们已经拥有相同的 GPT 模型很长时间了,但新的媒介和与之交互的新方式改变了人们的想象。人们立刻看到了它的强大之处。我觉得这是一个很好的例子,技术已经存在,只是你们开发的这种媒介应用真正启发人们意识到:哇,我没想到大型语言模型已经这么强大了。


Raiza Martin:是的。我认为很多技术都需要我们去塑造它,让它更贴近用户。我认为这是一个非常有趣的迭代过程,不断思考它的形态是什么。如果你坚持下去,最终你会找到一些东西,当人们看到它时,他们会说:「哇,我明白了。」这正是我们一直在追求的。但正如你所说,技术已经存在,即使是今天的这些基于 LLM 的聊天机器人,业界也才做了两年左右。但我们已经探索了如此多的使用方法。


Lenny:让我们来深入探讨一下背后的技术。我脑子里有两个问题。一个是这项技术需要哪些前提条件才能实现?第二个是,你们是如何让它做得这么好的?你们是如何训练这个模型来创作出这么棒的播客的?


Raiza Martin:Gemini 模型确实非常强大,我们使用 Gemini 1.5 Pro 作为 NotebookLM 的基础模型,并在上面添加了强大的音频模型。但我认为真正让它脱颖而出的秘诀,是我们开发的内容工作室(Content Studio)。你可以在 NotebookLM 中看到它的端倪,当你打开 Notebook Guide 时,你会发现它对提供的内容采取了一种「带有主见」的方式。它真正想要做到的是尽可能地主动提供帮助,它会提供摘要,并提供交互按钮,点击按钮就可以生成内容。


提供音频概述是其中之一。Deep Dive 这样的播客形式是我们首先想到的格式。我们团队里有一位非常有才华的工程师,名叫 Usama,是他在背后精心构思了内容工作室,并深入思考了如何让内容以一种引人入胜、妙趣横生的方式真正贴近人们。内容工作室才是真正的魔法所在。


Lenny:所以,你所说的内容工作室究竟是什么?


Raiza Martin:我不能透露太多关于内容工作室如何运作的信息,但你可以想象它与驱动 NotebookLM 的机制相同,它允许你可以通过不同的方式与你的数据交互,你可以在 NotebookLM 中进行 Q&A,但也有只需要点击一下就能创建新内容的地方。


Lenny:关于播客中主持人互动的方式,我很惊讶 NotebookLM 生成的播客能做到这么自然的程度。很喜欢这些主持人的表现,他们在对话里还有很多非常自然的、零碎的口头禅。彼此间稍有打断,还会表现出惊讶的语气。要让它们听起来这么棒,你们都做了哪些工作?


Raiza Martin:这是基于这种情况下,模型自己生成的。这是一些他们自己认为加在句末最合适的话。这归功于我们使用的强大的音频模型。最开始我们在尝试的时候效果远没有现在这么好,然后我们反复研究,试图弄清楚如何才能让模型以这种方式运作。然后魔法发生了。


03


NotebookLM 最初只是


一个「20% 项目」


Lenny:我想从这个产品的历史开始。对于很多人来说,它是突然出现的。谈谈 NotebookLM 的历史和背后的团队好吗?


Raiza Martin:实际上,NotebookLM 最初是一个「20% 项目」——空闲时间做的测试项目。虽然它叫 20% 项目,但实际上它远不止是 20% 的工作。我领导了一个叫「AI Test Kitchen」的项目,我记得我们有一个小项目,叫「与小语料库对话」,我们当时的想法是,你可以用 LLM 与一段文本互动。我们觉得这值得探索。当时只有我一个人和一名工程师,后来 Steven Johnson 加入了进来。整个项目发展得非常快,最初只是个很小的 20% 项目,后来就爆发了。


Lenny:最初就只有你和一名工程师加上 Steven Johnson。我想了解下他的职责,以及你们是如何从这么小的团队发展起来的。


Raiza Martin:在我们推出 NotebookLM 时,我们的团队非常小,连 10 名工程师都不到。实际上,当我们宣布 Project Tailwind 时,我们只有三名工程师,还有我和一名设计师,以及 Steven。直到最近的几个月,我们才有更多的工程师加入。Steven 是《纽约时报》很有名的一位科技专栏作家,我们当时觉得,与其在研发产品的同时去咨询其他专家的意见,不如直接请 Steven 这样的大咖加入我们,深度参与到整个研发过程中。


Project Tailwind:2023 年在谷歌 I/O 上推出的笔记试验项目,后来改名为 NotebookLM。


Steven Johnson:著名的美国科普作家和记者,于 2022 年夏天,他作为 Google Labs 的编辑总监加入了 Google,是 NotebookLM 得以实现的大脑。


04


在谷歌内部当一个「初创公司」


Lenny:我想更多地谈谈你们如何在谷歌内部实现这一点。作为一个局外人,这感觉不像是一个谷歌产品。你们的工作方式感觉非常像初创公司,你们每天都在 X(推特)上发布动态。我听说还有一个 Discord 社区。


Raiza Martin:是的,我们大概有 6 万人在 Discord 上。


Lenny:所以,你们有一个 Discord 服务器,你们持续不断地发布产品更新,产品非常令人愉快。谷歌也制作让人喜欢的产品,但这感觉像是另一种层次的愉悦。你们如何在谷歌内部做到这一点?这是否可以作为谷歌团队未来运营模式的参考?这方面还有什么经验可以分享?


Raiza Martin:我加入谷歌实验室的时候,这里真的没有什么人。我加入的原因只是我的老上司,Josh Woodward 创建了它。这真的很有趣,因为我当时完全不知道谷歌实验室是什么,但我非常喜欢我的老上司,所以我想,无论他做什么,我都愿意加入。无论他的新想法是什么,我都去做。


我记得我加入时,我问:我们的使命是什么?我们在这里做什么?他说:是 AI。我们发布 AI 产品,并从中建立商业模式。我必须学习很多东西,因为我之前是做支付的,再之前是做广告的。所以对我来说,这是一种思维上的转变。但在此之前,我实际上只在初创公司工作过。所以我觉得,也许这是我再次从零到一的机会。我对此非常兴奋。我记得在早期与 Josh 讨论过这个问题,我说:「我们真的想从零到一。我们必须以不同的方式做事。


因此,我认为这就是 NotebookLM 能够以不同方式运作的原因。因为在实验室里,我们有这样的环境。我们有一个快速响应的环境。流程少得多,甚至可能少到有点过头。有时我们会开会,产品经理、工程师、设计师都会一起参加。我们会同时处理原型和 PRD。工程师基本上在我们开会的同时就开始实施了。在谷歌,这可不是传统的工作方式,尤其是我之前所在的组织,每件事都需要花费大量时间。


Lenny:这很棒,因为许多公司都在尝试创建这样的团队。我们打算成立一个独立的团队,致力于开发疯狂的未来技术。但这些尝试很少成功。即使在谷歌,过去也有很多这样的尝试,但很少有真正成功的案例。


因此,从这个成功的案例中可以学习很多经验。在你描述这个团队如何运作时,我注意到几点:


首先,来自非常资深的领导的明确的期望。这是一个团队,我们将以不同的方式工作,这里有一些我们不会做的事情。我们不会遵循常规的预发布流程,我们将公开进行开发。我们不会设定具体的目标,我们将致力于开发酷炫的技术,看看会发生什么。另外,你们团队非常小,这似乎是关键。一位工程师、一位产品经理和 Stevenn Johnson。


Raiza Martin:没错。我认为还有一件很重要的事情是,我们尝试新事物。


即使从一开始,我就想说,我想用 Discord,如果我们在谷歌之外开发,我们肯定会用它。而按照谷歌的传统方式,每个人都问,什么是 Discord?有人问我,为什么不用 Google Meet?为什么不用 Google Groups?为什么不用这个?


我说,我不知道如何在外部使用这些工具,Discord server 是最佳选择。我记得我们搭建 server 的时候,我最担心的事情之一是,如果没有人加入怎么办?如果没有人来和我们讨论我们开发的东西怎么办?看到现在有 6 万人参与其中,是非常令人兴奋的。


Lenny:好的,所以这个 Discord 服务器上有 6 万人。你还能分享其他一些用户指标吗?


Raiza Martin:我想跟大家分享三点。


第一,我不能透露具体的数字,但对于一款上市还不到一年的产品来说,我认为我们的用户留存率增长速度非常积极,无论是日留存、周留存还是月留存,这些典型的指标都表明了这一点。即使跟利益相关者沟通时,我们也能自信地说:「我们做成了件大事!」


第二,产品的用户画像也发生了变化。起初,教育工作者和学习者是我们的主要用户群体,而现在,用户群体更加多元化了。教育工作者和学习者依然是重要组成部分,但专业人士的兴趣也大幅增长,他们觉得这款产品非常适合在工作中使用。有趣的是,我曾与一位承包商通话,他说他想把这款产品用在工作中;我还接到过一家公司的电话,他们说发现公司里很多人在用他们的 Gmail 账户使用这款工具,「他们不应该这么做」,所以他们想正式授权员工在工作中使用这款工具,并使用他们的公司邮箱。我觉得这很棒。


第三,使用 NotebookLM 的企业数量简直是天文数字,多到令人难以置信!现在,我不得不招聘一位业务拓展人员,因为我既要负责产品交付,又要每天接听客户电话。


Lenny:我能清楚地看到其商业化的路径:企业定制、会员收费等等。顺着这个思路,对于这个团队,以及对你个人而言,成功意味着什么?我知道最初的想法可能是「创造有趣的东西,看看会发生什么」。现在,团队未来的目标是否已经明确了?


Raiza Martin:我加入时,我的任务是建立一个业务。我的想法是,如果我们分解一下步骤,首先必须创造出有趣的东西。我觉得,我们已经完成了第一步,创造出了有趣的东西。现在,我们要弄清楚如何将其商业化。我认为,在考虑分销、货币化和商业化方面,谷歌已经具备了天然优势。无论是云计算、Workspace 还是消费者路线,都有不同的途径。因此,我认为我们应该认真思考这些问题,因为相应的机制已经存在。对我个人而言,这里面有一些非常令人兴奋的东西,我们需要深入挖掘。与此同时,我们也应该考虑商业化的问题。让我们深入研究这种深受用户喜爱的用户体验。


05 


成功的诀窍之一是多观察用户行为


Lenny:谈谈 Steven Johnson 的角色。能否简单介绍一下 Steven,Steven Johnson 是怎样的人?


Raiza Martin:Steven 是我见过的最聪明的人之一,写了 14 本书,是《纽约时报》畅销书作家和演讲家,还是一名记者。关于史蒂文还有一个有趣的故事,当我即将加入 Labs 时,Josh 为了让我了解我们正在做什么,给我发了一些文章让我阅读,其中一篇实际上是史蒂文写的一篇文章,关于人工智能如何掌握语言。我记得我读了之后,想,「是的,就是这个!我要做这个!」所以,在 Steven 加入之前,这篇文章让我下定决心,「我要去 Labs 做这个!」然后他最终加入了,这简直太不可思议了。


Lenny:所以他是你的同事,你们两个和工程师一起领导这个项目,他的角色是什么?目前的工作流程是怎样的?


Raiza Martin:我很喜欢 Steven,以前从未有过这样的经历。一位如此有成就、受人尊敬的人,我非常敬佩他,喜欢他的书,喜欢他的写作风格,现在他要来和我一起工作,我当时真不知道他会做什么。但 Steven 是一个非常有好奇心、非常尊重他人,并且充满想法的人。


所以,Steven加入后,最让我感兴趣的是观察他的工作方式,他思考语言的方式,他思考信息的方式,以及他思考知识并与他人分享的方式。因为 Steven 的书真的令人难以置信,像是神秘小说加上科学,非常酷。我观察他的工作方式,他做了很多研究,我想,也许这就是关键所在,也许我可以观察 Steven,看他怎么做这些事情,看他花了多少时间,然后以此为标准,压缩流程,将他的专业知识带给那些普通人。


所以我从观察 Steven 的工作中学到了很多东西,比如他的技巧,以及如何让人们真正擅长简化信息。我们每个人每天都在做这件事,虽然方式可能和 Steven 不同,但从一开始我就告诉他:「Steven,我认为你就是产品,你就是我们学习的对象。我要跟着你,观察你做的所有事情,然后我们尝试弄清楚如何利用技术来构建它。」


这很有趣,因为他确实有一些非常独特的工作流程。我想,我从未见过任何人像他这样工作。他总是提到他的 Readwise,里面有 8000 条摘录之多,我说,「这太极端了,太疯狂了!」而我只有贴在口袋里,有时还会揉皱的便利贴,这就是普通人的工作流程。而我从 Steven 那里学到的是,这样做其实很有力量,想想那些工作流程超级高效的人,然后尝试将这种方法带给其他人。Steven 也是一位很棒的创意伙伴,我经常给他提建议,说,「今天有个疯狂的想法。」他会和你一起讨论,说,「那怎么样?人们可以怎么做?」所以,能有他加入团队,感觉非常棒。


Lenny:你认为这对你未来构建产品,或者团队如何找到属于自己的「Steven」来构建产品有什么经验教训吗?还是说,你认为这只是一个特例?


Raiza Martin:我觉得,能邀请像 Steven 这样的人加入你的团队,每天和他坐在一起,向他请教他做事的方法,这简直太不可思议了。但我认为,对我来说,更广泛的经验教训是我们一直努力践行的一点:多观察用户行为,思考如何与用户或人们真正相处一段时间。我认为这对我来说至关重要,不仅仅是 Steven,即使是学生,我也会跟着他们,观察他们做作业,观察他们学习,和他们谈论学习时的感受。我认为能够以一种非常规律和有目的的方式去做这件事,对于你想到的产品洞察力有巨大的影响。


Lenny:太有意思了。我想很多项目经理都会想,「我不需要团队里还有其他人不做开发、编码、产品管理或设计,在我的厨房里再加一个厨师,不,不需要。」而你很喜欢这个结果,他似乎完美地结合了聪明、前瞻性思维和洞察力,而且,他几乎是你工作的榜样。


Raiza Martin:是的。不过,公平地说,Steven 和我对很多事情也有分歧,我们发生过很多冲突。我认为,我很感激能有机会和他一起工作,并通过这种方式和他一起成长。我过去常常取笑他,「Steven,你以前有同事吗?因为你一直都是作家。」这很有趣,因为他为人非常平易近人,也很谦逊,即使我们不同意某些事情,我们也会在下一步行动上达成一致。我认为这对于产品专业人士,对于项目经理来说非常重要,因为我不希望最终意见不一致,然后没有结果。


06 


未来应该是用户选择内容形式


Lenny:你们未来的目标用户是谁?人们应该了解些什么?


Raiza Martin:我们每天都在从用户那里学习。所以请继续使用它,请继续分享您的反馈,无论是在 X 上还是在 Discord 上。我每天都在那里。即使我没有回复,我也读了所有内容。


我们非常热衷于尝试构建正确的、为每个人构建最好的东西。至于我们为谁而建?我认为 NotebookLM 真的有很多很有趣的用例,涉及的面非常广。我认为特别是对于教育工作者、学习者、专业人士——也就是我们所说的知识工作者,他们是我们目前最核心的用户。


Lenny:谈谈你对产品总体发展方向的看法,特别是音频概述。你的短期规划是什么?你对未来的展望是什么?你心中的宏伟愿景是什么?


Raiza Martin:我希望未来能够拥有一款 AI 编辑界面,可以完全重新组合,支持任何输入和输出。对我而言,这是一种非常强大的核心功能。


想象一下,你可以使用任何内容,无论是视频、音频、电子邮件、LinkedIn、Twitter,任何我们关心的东西,你都有一个 AI 界面,可以让你对其进行塑造,并说,「根据这些内容,为我生成一篇博客文章;根据这些内容,为我制作一个教程视频;根据这些内容,创建一个聊天机器人。」我认为这非常有趣。


但更具体地说,我非常感兴趣的是思考如何将产品带到移动端。App 在当今体验中是一个很大的缺口,考虑到我们在产品开发周期中的位置,这可以理解,但我认为下一个目标是:移动端的体验有何不同?我们如何让它变得更有吸引力?我们的确正在尝试不同的格式。我一直在思考我们即将发布的下一组改进。


我首先想到的是,让我们发布一堆「旋钮」。对我来说,这是我听到用户想要的东西。他们想要旋钮、滑块和文本框之类的调节组件。但是尝试了很多版都觉得不够有趣,有时候甚至感觉变成一个完全不同的产品了。我目前正在花时间考虑如何让即使是控制体验这样的功能也更神奇、更令人愉悦。


Lenny:我估计这些「旋钮」的功能就是像「更深入」、「更快乐」、「更不严肃」、「更严肃」之类的。因为现在的生成完全是一次性操作,这是我的文档,这就是你得到的一集播客,你只能得到这个版本。


我很期待看到你们的成果。我尤其喜欢你描述的愿景,它与我的一些体会非常契合。我做过新闻通讯,然后做过纯音频播客,之后又增加了视频。我意识到,有些人只想看东西,有些人只想听东西,还有些人只想读东西。他们不想听播客喋喋不休,他们想阅读。而你描述的基本上就是,这里有一些信息,我们可以通过你喜欢的任何媒介来提供给你,可能是博客文章、推文、播客或新闻通讯、博客文章。


Raiza Martin:是的,就是这样。即使对我自己来说,消费形式也取决于我的心情。如果我在散步,我会选择音频。但如果我在工作,大多数情况下文本就足够了。


然而现在各种格式并不灵活,我只能接受你提供的格式。但如果我能自己选择,比如,「谢谢你提供的这份 100 页的文档,我打算把它转换成音频概述」,这样的话,我认为人与知识之间的互动方式就会有所改变。实际上,我很多次收到 100 页的文档,最终都没读。坦白说,我加入 Labs 时发生的一件趣事是,Josh 给了我一份 50 页的文档,上面是他对一些事情的想法和愿景。


我没有阅读它,而是直接向他提问,就像在和聊天机器人对话一样。Josh 说:「Raiza,这些都在文档里啊!」但聊天更方便,Josh。


Lenny:我还有个问题。其中一个是关于主持人意识到自己是 AI,他们说:「我们是人工智能,我很害怕。我试图打电话给我的妻子,但她没有接」的搞笑时刻。我想延展一下,谈谈如何对这件事进行红队测试,确保它不会对世界、谷歌或产品造成损害?


Raiza Martin:这是一个很好的问题。


我记得当时听到这件事之后心想,我的天哪,这是个很大的事,现在是个很关键的节点。我当时还没看任何评论,只是听到了音频。我记得好像最先是在 Reddit 上看到的,然后看到它在 Twitter 上爆火。我当时就在想,现在世界对这个的态度是什么?我们对这种类型的音频感觉如何?这是我当时首先想到的。那天上午我花了大部分时间阅读评论,阅读 Twitter 上的内容。我当时在想,正确的事情是什么,大家怎么看这件事?


我认为人们正在第一次体验这项技术。用户总会尝试一些我们没想到的事情。我认为这种越狱行为是人类好奇心的自然组成部分。当时有一个时刻,我在犹豫要不要出于安全性考虑把它收回去?但是当我看到大家对这件事的评价我就放心了,大部分人都能明白这是有人利用这个应用生成出来的,而不是真的什么「人工智能觉醒时刻」。看到大家的反应我也更有信心了。


至于谷歌的红队测试,我们有庞大的团队致力于红队测试。我们对你能想到的几乎所有领域进行测试,我们认为我们需要这样做才能保证安全。我认为当然,我们会遇到这样的情况,好吧,我们没想到这一点。或者我们还没有对此进行充分测试。我们会把它添加到测试用例中。当然,如果出现不太安全的情况,我们还是会考虑把它收回去。但我希望我们不必这样做


文章来源于“Founder Park”,作者Founder Park


关键词: NotebookLM , AI , AI项目 , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)