notebooklm的介绍🍂
- 地址:notebooklm.google/
- 功能简介:Google 研发的一个基于Gemini2.0的智能笔记应用程序。它的特点是能够帮助用户自动生成内容、提供写作建议、自动汇总信息、并且通过自然语言处理技术使笔记管理和搜索更加便捷高效。NotebookLM 可以显著提高工作和学习的效率,适用于各类需要大量笔记记录和整理的场景。
扒取官方文档存到本地👻
使用
continue和cursor的时候,就有所感触,虽然爬取在线文档很方便,但其局限性也很明显。首先,它无法处理由JavaScript动态生成的内容。其次,即便能够爬取某些网页,通常也只能获取当前URL对应的内容,而不会自动爬取子页面。况且,如今,将所有文档内容集中在一个页面上的网站已经越来越少见了。
用element-plus.org为例,开始爬取它的官方文档
- 下载开源项目
进入官网页面,随便找到一页,滚动条拉到尾部,进入找到GitHub的文档链接
下载项目,解压文件
关于文档链接的说明:目前,将开源文档链接托管在GitHub上已经成为一种非常普遍的做法。
例如,在Vue项目中,官方文档的集成地址就是托管在GitHub上的。
对于Element和Ant Design这类开源组件库,它们的文档也是挂载在各自的源码项目中
- 获取md文件内容
打开vscode,进入刚刚下载下来的项目,可以看到我们需要的md文档都在docs/en-Us中
如果你不知道项目中文档的位置,可以使用快捷键ctrl+p搜索文件
关键词:【.md】【.xmd】....
vscode筛选文件+全局搜索
- 全局搜索匹配正则:
[\s\S]+ - 包含文件位置:
docs/en-US/*/*.md
ctrl+a复制匹配内容,新建index.md文档,粘贴index.md到中
用vscode打开我们的index.md文件,可以看到这里会有一些影响md格式的序号,ctrl+f正则匹配:\s*\d+:?\s
处理前:
处理后:
这样你就获取了所需要的md文件啦,末尾我会附上我扒到的文档~,大家可以移步查找,有没有需要的~
使用感受🧐
优点
- 搜索优化
比方说,在ant-deisgn文档中,我想找一下关于虚拟滚动技术在哪些组件中有使用。我们在官方文档上搜索,结果就是这样的(见下图),结果有点不尽人意
当我们在notebookLM中搜索提问的话就是这样的,可以看到我们的搜索结果被大大增强
- 文档解释
另外,notebookLM所带的模型能力,也可以根据你所附带的source,对文档的内容进行解释。这里我们以tiptap的官方文档为例,现在我想了解实例的getText方法的textSerializers参数,见下图的官方文档对于,方法的描述简略,对于不熟悉框架的用户来说其实很不方便
但是结合模型的能力+文档作为提问的上下文,结果就大不相同了
- 跨文档提问,综合理解
还是以tiptap为例子,它是一个用ProseMirror实现的富文本编辑器。tiptap的官方文档中,对于内部的一些底层的方法,数据结构解释的十分模糊。这对于我们的学习形成很大的阻碍,此时利用notebookLM进行联合提问,或许是一个不错的选择
缺点+使用建议
一方面来说,官方对这个产品的定位可能就是“可以搜索的云文档”,另一方面,产品所依赖的模型的影响。所以,在我看来这个产品的“思考”能力并不强,
-
结果不全面:和很多AI产品一样,结果与提问的相关性很大。关于这里我的建议是:一方面,你可以尽量根据文档的关键词进行提问。另外一方面,对问题的描述尽可能的详尽。最后,如果效果始终不理想,不妨多试几次
-
结果不准确:
- notebookLM的提问所查的资料库是:source(上传的源)+本次对话的内容。即使source中没有找到,如果本次对话的内容中有误导的内容,可能也会使得AI输出的结果不准确。所以我们在进行提问的时候,应该及时清理对话内容,以防误导模型
- notebookLM本身也有大模型的能力,所以可能会胡诌。我们对于提问的结果不要全然尽信,还是应该参考官方文档的描述