最近越来越觉得 wget 是个神器了,工作中还算用得少,私下折腾经常用。
本文 0 aigc,仅仅作为自己实际使用的一些场景的动态笔记。
用途理解的话:
- 之前想把lianglianglee那个网站,整个备份下来,用的就是 wget。
- 单静态网站,无框架无防御性编程的源码整个扒下来,只用devtool是做不到的,不知道为什么涉及保存的功能都不提供。
wget的作用,web get,一切你想获取网站内容,保存下来的行为都有帮你考虑到,提供连接转换本地,递归查找,处理特殊字符等功能
以下就展开说一下上面两个使用场景,然后如果之后我调出来更好的参数也会动态改的
使用场景 1:整个网站归档
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --waitretry=2 --wait=3 --random-wait -nc <website>
相当于一个简易爬虫了
使用场景 2:单静态网页的备份
这个适用于,你只想保存围绕当前网站的所有核心资源
wget -r -np -k -p -E --restrict-file-names=nocontrol <website>
- -r:递归下载
- -np:不遵循父目录链接
- -k:将链接转换为本地链接
- -p:下载所有资源(包括样式表、JS、图片等)
- -E:将下载的HTML文件添加.html扩展名
- --restrict-file-names=nocontrol:处理特殊字符
这个前提是静态的,如果有些资源是在js中动态获取就拉不到
--cut-dirs=1:减少一层目录结构