ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
大神卡帕西安利爆火AI应用,称「或是下一个ChatGPT」
3158点击    2024-09-30 13:34


大神卡帕西墙裂推荐!


甚至预言这个AI应用,有可能开启「和ChatGPT一样大的机会」。


它就是来自谷歌的实验性AI产品,Notebook LM,背后由谷歌现在最强大的模型Gemini 1.5 Pro提供支持。



最近这应用要多火就有多火,全因上线了一项新功能——


上传文件(文字、音频、视频),AI不仅能帮忙用文字提炼要点,还可以通过音频概述(Audio Overview)功能,把文件转换成AI生成的对话播客,根据文档内容进行讨论。


2个AI,用真人般的语音和口吻,围绕文件内容激情讨论,最后总结陈词。


这真的很酷!


而且不是卡帕西一个人在夸。逛了下互联网几大平台,网友们对Notebook LM普遍还是挺买账的。


AI界的KOL@elvis也在卡帕西评论区留言:


卡神称这“让人想起ChatGPT时刻”,绝对不是夸大其词!


真正让多种模型联合工作,会解锁Notebook LM这样独特的内容格式和用户体验。



Notebook LM怎么玩?


玩法很简单,打开试玩页面,拖拽上传需要处理的文件。


可以是谷歌文档,可以是网站和视频链接,甚至干脆粘贴一大段文本都可以。


每个笔记本支持上传50个文件,每个文件内容上限500000个单词。



这里我们上传了OpenAI o1的System Card文档,接下来就可以选择需要创建的内容。


内置支持问答、小测验、目录、时间线、摘要等文字版功能,以及两个主持人的深度对话音频内容。


如果有更个性化的需求也可以自己敲prompt。



我们尝试用中文提问,结果AI是可以理解的。


很可惜的是Notebook LM不支持用中文回答,即使刻意要求也不行。



选择创建音频的话,视文档长度需要等待几分钟到十几分钟。


趁这个时间来了解一下这背后的Gemini模型叭~


NotebookLM由Gemini 1.5 Pro来支持,也就是谷歌家目前旗舰级大模型。


Gemini 1.5 Pro支持超长128k上下文,这是能解读长文档的基础。


在最近的一次升级中,Gemini 1.5 Pro数学和推理能力还反超OpenAI o1预览版。



好了,刚才生成的音频也处理完毕,英语好的朋友可以来听听看。


英语没那么好的朋友,也可以看看套娃AI转写、翻译出来的AI播客文字版,感受一下。



单纯的上传文档,生成内容,还只是Notebook的实用玩法之一。


还有人介绍了学生上课录音,回家用AI整理重点的玩法,也广受好评。


(不是自己不听课了的意思)


具体来说,可以遵循以下步骤:


  1. 上课时用手机录音;
  2. 上课期间不需要用电脑,只需(纸笔)记下简短的重点;
  3. (下课后)把录音和笔记扫描上传到NotebookLM,让它根据录音细节扩写笔记。


另外,还可以每周创建一份对所学内容重点的复习音频。



一种与单纯Chat不同的交互范式


其实,NotebookLM并不是出道即爆火。


早在去年5月的Google I/O大会上它就已经出现了,不过那个时候,作为AI笔记本项目的它还叫Project Tailwind


到了去年7月,NotebookLM它才改成现在的名字。


起初,只支持美国局部地区的用户食用;功能也还是围绕着基础的Chat模式展开。


NotebookLM自动生成文档指南(来自谷歌官网)



到了这个月11号,NotebookLM突然宣布面向全球玩家开放,并且新增了重磅功能,音频概述


谷歌给的官方介绍是这样的:


“新的音频概述功能,可以一键将文档、幻灯片、图表等转化为引人入胜的讨论。”


因为交互形式很新、AI语音逼真、讨论起来真的很像真人播客,大家一下就玩嗨了。



到这两天,Notebook LM不仅已经能够把Youtube视频作为输入,还已经支持超100种语言。


现在,卡帕西的下场“示爱”,更为Notebook LM的热度添了一把火。


如卡帕西所说,Notebook LM爆火最主要的原因,是它提供了一种与单纯Chat不同的交互范式。


卡帕西表示,Notebook LM消除了大模型的两大享受障碍:


第一点,聊天其实挺难的。


有些人在日常生活中跟人交流都费尽心力,更别提要和Chatbot聊天,还得不停提问、追问。


NotebookLM好就好在,生成的二AI播客,其中有一方就会处于提问、引导角色。


咱把文档、音视频放进去,等待生成,美美听AI根据文件唠就是了。


第二点,阅读不是件容易的事。


信息爆炸的碎片化时代,挑个舒服的姿势,或者开车时候听别人讨论我需要的东西,比自己费劲吧啦搁那儿看容易得多。


——哪怕看的是AI已经帮我们总结出来的凝练版本(哎,没错,咱就是这么懒!doge)


本着精益求精的精神,也有网友表示了对Notebook LM更上一层楼的期待。


Hyperbolic Labs的联创兼CTO Yuchen Jin试玩过后,总结了两个局限性:


一个是它“看不到”,也就是没法处理文档里的图片信息。


不过背后的Gemini是多模态的嘛,相比Notebook LM长眼睛不会太晚。


另一个是用户无法引导AI播客的内容


Yuchen Jin喂给它两条推文,它就生成了近13分钟的音频内容,但它默认听众是普通受众,所以讲了很多很基本的概念。


如果能指定生成播客的目标群体,或者谈论主题、方向、角度,那真的是棒上加棒。


One More Thing


说时迟那时快,开发者搞出开源版的NotebookLM了!


不过暂时只能喂给它PDF嗷。



咱就是说,人类真有意思哈!


以前在音频转文字方面费劲,追求把广播、会议录音啥的转成文字。


现在又开始用大模型把文字转成播客了……


有意思哇有意思哇


参考链接:


[1]https://notebooklm.google/


[2]https://x.com/karpathy/status/1840112692910272898


[3]https://x.com/omarsar0/status/1840145774874898506


[4]https://x.com/Yuchenj_UW/status/1840203324571943403


[5]https://github.com/gabrielchua/open-notebooklm


文章来自于微信公众号“量子位”,作者“衡宇”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0