谷歌的NotebookLM功能,能迅速把文字生成播客,一经推出就引起了强烈反响。
而就在最近,一位游戏作家发现,自己出版的一本扫雷的书,竟然已经被NotebookLM生成了假的AI播客!
看到自己的书被浓缩成了两个不存在的人之间的时长12分半的对话,作者Kyle Orland大呼:我被吓到了!
当然,如果仔细听,就会发现播客音频中仍然存在不少问题,显然它还无法取代专业播客。
但即便如此,Orland仍然感慨道:播客这样的格式,是我们接受复杂信息的一种更吸引人、更有趣的方式。
比起基于文本的聊天机器人给我们的枯燥的回复,它显然为生成式AI指明一个更有魅力的未来。
谷歌的NotebookLM,是一年多前推出的。
根据谷歌介绍,它的功能是「作为虚拟研究助理,基于您选择来源总结事实、解释复杂的想法,并且为新的联系集思广益」。
不过就在上周,谷歌添加了「音频概述」的功能。
一下子,NotebookLM就有了新的卖点:一篇冷冰冰的文档,可以变成引人入胜的音频了!
不过有趣的是,谷歌在任何地方都没有使用「播客」这个词,而是表示这个功能可以帮你「总结材料,在主题之间建立联系,甚至开一些戏谑的玩笑」。
沃顿商学院教授Ethan Mollick发帖的时候,给予了这个产品正确的叫法——「播客」。
Mollick教授将这个播客评为「当前最好的AI演示」。
同时他也表示,这很令人不安。
当然,AI播客中,幻觉问题依然无法避免。
但Mollick教授表示,总结、提炼和处理多个大文档的能力,能让我们对AI进行事实核查,这才是它的最大价值所在。
受到Ethan Mollick的启发,Orland决定把自己的这本书输入NotebookLM。
他很期待,这本关于扫雷游戏的大概30000字的书,如果变成虚拟播客,会是什么样子。
仅仅几分钟后,Orland就看到了文章开头的画面。
他身临其境地体验到,如果自己出现在NPR的「Pop Culture Happy Hour」节目,或者受邀出现在一个戏谑风的播客节目中,会是什么样子。
Orland发现,NotebookLM的摘要,涵盖了自己这本书的主要部分——
激发扫雷灵感的游戏的史前史;20世纪90年代,专注于商业业务的微软为Windows Entertainment Pack展开的艰苦战斗;扫雷预装在数百万台企业和政府计算机上而引发的道德恐慌;以及围绕游戏竞争场景的种种令人惊讶的作弊争议。
总的来说,任何一个听到这个播客的人,都可以大致了解我这本书的内容,就跟许多真实的播客一样。
虽然在这篇假播客中,并没有出现大面积的幻觉,但还是有一些地方在小细节上出了纰漏,或者直接给出文本中不支持的假设。
比如,例如,在讨论扫雷游戏的前身Mined-Out 时,AI播客说:「所以这就是那些方块和旗帜开始发挥作用的地方......」
然而,Mined-Out并没有这两个功能,全是AI瞎编的。
显然,如果我们需要使用NotebookLM的摘要播客去了解学术文章或新闻报道,如果出现类似的幻觉,或者漏掉书中一些关键部分,会很劝退。
不过,我们可以使用这种摘要获得一些「克里夫笔记」式的东西,对于那些我们没有时间或者没有兴趣完整阅读的大部头书,它还是很有吸引力的。
而且,跟阅读「克里夫笔记」不同,这种简洁的播客风格可以提供一种令人愉快的背景噪音,非常适合外出散步或办事时听。
正是这种自然、诙谐的演示,让NotebookLM 的新功能从其他能生成文本摘要的AI产品中脱颖而出。
Orland表示,这感觉就好像自己碰巧在咖啡馆偷听到两个人在讨论自己的书。
然而,这两个人在现实中并不存在。
而且,他们对这本书表现出的赞扬态度,可能也是通过算法而设计好的。
开始,一位「播客主持人」将这本书描述为来自「软盘和拨号调制解调器之国」的故事。
如此有趣的表达,作者并没有在书中使用过,AI的这种幽默让他捧腹大笑。
接着这位主持人调侃着讲出「比尔·盖茨在微软办公室里偷偷溜达」,暗示了作者在书中最喜欢的佚事。
随后,这两位假主持人以一种很自然的对话,探讨了这桩佚事。
主持人1:当你自己的CEO暗自着迷时,很难否认某件事的影响。
主持人2:等等,我们是在谈论比尔·盖茨吗?
两人「播客」格式的来回对话风格,也允许一些有趣但偏离本书要点的话题出现。
比如,当讨论《扫雷》前作《Mined-Out》中的蠕虫电影明星遇险少女时,这两位AI主持人似乎有点心烦意乱。
主持人1:我想问,虫子还主演什么电影?
主持人2:恐怕细节已经消失在游戏历史的尘埃里了。
然后,两位「主持人」以一种随意的方式提出了扫雷的改进版本,该版本是为了解决微软原版扫雷的问题而设计的。
主持人1:所以最终社区想出了一个更优雅的解决方案。
主持人2:让我猜一下。他们创造了新版本的扫雷。
主持人1:没错。
主持人2:旧的一天就到此为止了。
两人的对话形式中,呈现出了一种温和、轻松的节奏,但呈现出的信息是很密集的。
而且,听起来很自然的停顿和重复,也能帮助强调一些要点。
比如,主持人1谈到「几乎每台计算机上都预装了这款令人难以置信的上瘾的益智游戏」,另一个声音就会回答,「在每台计算机上?」
或者,某位主持人谈到「我们发现最初的扫雷游戏在生成随机棋盘的方式上存在缺陷」,另一个声音就会跳出来惊呼「一个缺陷!」
气氛组的劲儿是给足了。
当然,两位AI假人的对话还是有一些问题。
比如,两个声音似乎一直在「我读过这本书」和「我对你分享的书中事实感到惊讶」这两种感觉之间来回横跳,这就很难让人相信其中任何一个是真诚的。
而过于惊讶的反应,也会让人因为厌蠢而有点恼火。
另外,AI还会在错误的地方断句,或者出现一些奇怪的笑声。
尽管如此,它依然令Orland惊喜。
他举例说,比如在某些时刻,它引出某些事的方式,微妙地迎合了他的作者自我意识,这让他非常受用。
最后Orland总结道,在听完NotebookLM的总结后,自己会想象到这不久的将来,这些假播客将成为自己的「正餐」。
尤其是那些那些不太容易引起真人播主兴趣的专业书籍或主题。
通过将生成式AI文本重新包装成「两个人聊天」的模式,谷歌为有时似乎非人性化的技术,换上了一层和蔼可亲的面孔。
参考资料:
https://arstechnica.com/ai/2024/09/fake-ai-podcasters-are-reviewing-my-book-and-its-freaking-me-out/
文章来自于微信公众号“新智元”