wget是一个命令行工具——是历史上最快的单线程传输工具,用于下载网站/批量文件,支持HTTP和FTP。
Windows 版下载地址
downloads.sourceforge.net/gnuwin32/wg…
linux 版下载地址
下面是几个常用示例
wget -m -e robots=off -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" http://rubyer.me/
对rubyer.me做镜像。
-e robots=off 让wget无视robots.txt协议
-U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" 伪造agent信息
-m 对网站做镜像
wget -r --tries=10 http://rubyer.me/ -o wget.log
递归下载rubyer.me,默认递归尝试为5层,下载页面失败时最多尝试10次,并把log记录到wget.log中
-o 保存日志为wget.log
–tries 失败尝试10次
wget -b http://rubyer.me/file.zip
启动后后台运行,如果没有指定-o, 默认log为wget-log
wget --convert-links -r -l2 http://rubyer.me/
递归两层下载,并转换页面链接为本地
–convert-links 转换链接地址为本地,便于离线浏览
-l 指定递归层数,对-r起作用
wget -p --convert-links http://rubyer.me/dir/page.html
-p 会下载所有网页需要的css,js和其它文件。便于离线浏览
wget -nc -r http://www.rubyer.me
-nc wget正在下载时被打断,不想覆盖以前的下载,就用这个参数
wget -c http://rubyer.me/file.zip
断点续传,如果已经存在ls-LR.Z,Wget就会假定已经下载一部分,并会跳过文件大小后继续下载
wget -A gif,jpg http://rubyer.me
只会下载以gif和jpg结尾的网址
wget -R mpg,mpeg,au* http://rubyer.me
与-A相反
au*使用了能配符,表示任意长度的任意字符。
wget -I /article,/catelog http://rubyer.me
只下载网站/article, /catelog目录下的内容,忽略其它目录
-I 后参数为允许下载的地址列表,多个地址用逗号隔开,地址中可以有通配符,注意地址要省去http:..**/
wget -X addr_list
与-I相反,不允许下载的地址列表
wget -np
不递归下载父目录的内容,这很有用