wget 使用简记

101 阅读1分钟

最近越来越觉得 wget 是个神器了,工作中还算用得少,私下折腾经常用。

本文 0 aigc,仅仅作为自己实际使用的一些场景的动态笔记。

用途理解的话:

  1. 之前想把lianglianglee那个网站,整个备份下来,用的就是 wget。
  2. 单静态网站,无框架无防御性编程的源码整个扒下来,只用devtool是做不到的,不知道为什么涉及保存的功能都不提供。

wget的作用,web get,一切你想获取网站内容,保存下来的行为都有帮你考虑到,提供连接转换本地,递归查找,处理特殊字符等功能

以下就展开说一下上面两个使用场景,然后如果之后我调出来更好的参数也会动态改的

使用场景 1:整个网站归档

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --waitretry=2 --wait=3 --random-wait -nc <website>

相当于一个简易爬虫了

使用场景 2:单静态网页的备份

这个适用于,你只想保存围绕当前网站的所有核心资源

image.png

wget -r -np -k -p -E --restrict-file-names=nocontrol <website>
  • -r:递归下载
  • -np:不遵循父目录链接
  • -k:将链接转换为本地链接
  • -p:下载所有资源(包括样式表、JS、图片等)
  • -E:将下载的HTML文件添加.html扩展名
  • --restrict-file-names=nocontrol:处理特殊字符

这个前提是静态的,如果有些资源是在js中动态获取就拉不到

--cut-dirs=1:减少一层目录结构