大神卡帕西墙裂推荐!
甚至预言这个 AI 应用,有可能开启「和 ChatGPT 一样大的机会」。
它就是来自谷歌的实验性 AI 产品,Notebook LM,背后由谷歌现在最强大的模型 Gemini 1.5 Pro 提供支持。
最近这应用要多火就有多火,全因上线了一项新功能——
上传文件(文字、音频、视频),AI 不仅能帮忙用文字提炼要点,还可以通过音频概述(Audio Overview)功能,把文件转换成 AI 生成的对话播客,根据文档内容进行讨论。
2 个 AI,用真人般的语音和口吻,围绕文件内容激情讨论,最后总结陈词。
△卡帕西输入训练 GPT-2 的 C 代码,制作的对话播客
这真的很酷!
而且不是卡帕西一个人在夸。逛了下互联网几大平台,网友们对 Notebook LM 普遍还是挺买账的。
AI 界的 KOL@elvis 也在卡帕西评论区留言:
卡神称这 “让人想起 ChatGPT 时刻”,绝对不是夸大其词!
真正让多种模型联合工作,会解锁 Notebook LM 这样独特的内容格式和用户体验。
Notebook LM 怎么玩?
玩法很简单,打开试玩页面,拖拽上传需要处理的文件。
可以是谷歌文档,可以是网站和视频链接,甚至干脆粘贴一大段文本都可以。
每个笔记本支持上传 50 个文件,每个文件内容上限 500000 个单词。
这里我们上传了 OpenAI o1 的 System Card 文档,接下来就可以选择需要创建的内容。
内置支持问答、小测验、目录、时间线、摘要等文字版功能,以及两个主持人的深度对话音频内容。
如果有更个性化的需求也可以自己敲 prompt。
我们尝试用中文提问,结果 AI 是可以理解的。
很可惜的是 Notebook LM 不支持用中文回答,即使刻意要求也不行。
选择创建音频的话,视文档长度需要等待几分钟到十几分钟。
趁这个时间来了解一下这背后的 Gemini 模型叭~
NotebookLM 由 Gemini 1.5 Pro 来支持,也就是谷歌家目前旗舰级大模型。
Gemini 1.5 Pro 支持超长 128k 上下文,这是能解读长文档的基础。
在最近的一次升级中,Gemini 1.5 Pro 数学和推理能力还反超 OpenAI o1 预览版。
好了,刚才生成的音频也处理完毕,英语好的朋友可以来听听看。
英语没那么好的朋友,也可以看看套娃 AI 转写、翻译出来的 AI 播客文字版,感受一下。
单纯的上传文档,生成内容,还只是 Notebook 的实用玩法之一。
还有人介绍了学生上课录音,回家用 AI 整理重点的玩法,也广受好评。
(不是自己不听课了的意思)
具体来说,可以遵循以下步骤:、
上课时用手机录音;
上课期间不需要用电脑,只需(纸笔)记下简短的重点;
(下课后)把录音和笔记扫描上传到 NotebookLM,让它根据录音细节扩写笔记。
另外,还可以每周创建一份对所学内容重点的复习音频。
一种与单纯 Chat 不同的交互范式
其实,NotebookLM 并不是出道即爆火。
早在去年 5 月的 Google I/O 大会上它就已经出现了,不过那个时候,作为 AI 笔记本项目的它还叫 Project Tailwind。
到了去年 7 月,NotebookLM 它才改成现在的名字。
起初,只支持美国局部地区的用户食用;功能也还是围绕着基础的 Chat 模式展开。
△NotebookLM 自动生成文档指南(来自谷歌官网)
到了这个月 11 号,NotebookLM 突然宣布面向全球玩家开放,并且新增了重磅功能,音频概述。
谷歌给的官方介绍是这样的:
“新的音频概述功能,可以一键将文档、幻灯片、图表等转化为引人入胜的讨论。”
因为交互形式很新、AI 语音逼真、讨论起来真的很像真人播客,大家一下就玩嗨了。
到这两天,Notebook LM 不仅已经能够把 Youtube 视频作为输入,还已经支持超 100 种语言。
现在,卡帕西的下场 “示爱”,更为 Notebook LM 的热度添了一把火。
如卡帕西所说,Notebook LM 爆火最主要的原因,是它提供了一种与单纯 Chat 不同的交互范式。
卡帕西表示,Notebook LM 消除了大模型的两大享受障碍:
第一点,聊天其实挺难的。
有些人在日常生活中跟人交流都费尽心力,更别提要和 Chatbot 聊天,还得不停提问、追问。
NotebookLM 好就好在,生成的二 AI 播客,其中有一方就会处于提问、引导角色。
咱把文档、音视频放进去,等待生成,美美听 AI 根据文件唠就是了。
第二点,阅读不是件容易的事。
信息爆炸的碎片化时代,挑个舒服的姿势,或者开车时候听别人讨论我需要的东西,比自己费劲吧啦搁那儿看容易得多。
——哪怕看的是 AI 已经帮我们总结出来的凝练版本(哎,没错,咱就是这么懒!doge)。
本着精益求精的精神,也有网友表示了对 Notebook LM 更上一层楼的期待。
Hyperbolic Labs 的联创兼 CTO Yuchen Jin 试玩过后,总结了两个局限性:
一个是它 “看不到”,也就是没法处理文档里的图片信息。
不过背后的 Gemini 是多模态的嘛,相比 Notebook LM 长眼睛不会太晚。
另一个是用户无法引导 AI 播客的内容。
Yuchen Jin 喂给它两条推文,它就生成了近 13 分钟的音频内容,但它默认听众是普通受众,所以讲了很多很基本的概念。
如果能指定生成播客的目标群体,或者谈论主题、方向、角度,那真的是棒上加棒。
One More Thing
说时迟那时快,开发者搞出开源版的 NotebookLM 了!
不过暂时只能喂给它 PDF 嗷。
咱就是说,人类真有意思哈!
以前在音频转文字方面费劲,追求把广播、会议录音啥的转成文字。
现在又开始用大模型把文字转成播客了……
有意思哇有意思哇(狗头)。
参考链接:
— 完 —