wget 下载常用参数

147 阅读2分钟

wget是一个命令行工具——是历史上最快的单线程传输工具,用于下载网站/批量文件,支持HTTP和FTP。

Windows 版下载地址

downloads.sourceforge.net/gnuwin32/wg…

linux 版下载地址

ftp.gnu.org/gnu/wget/

下面是几个常用示例

wget -m -e robots=off -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" http://rubyer.me/

对rubyer.me做镜像。

-e robots=off 让wget无视robots.txt协议

-U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" 伪造agent信息

-m 对网站做镜像

wget -r --tries=10 http://rubyer.me/ -o wget.log

递归下载rubyer.me,默认递归尝试为5层,下载页面失败时最多尝试10次,并把log记录到wget.log中

-o 保存日志为wget.log

–tries 失败尝试10次

wget -b http://rubyer.me/file.zip

启动后后台运行,如果没有指定-o, 默认log为wget-log

wget --convert-links -r -l2 http://rubyer.me/ 

递归两层下载,并转换页面链接为本地

–convert-links 转换链接地址为本地,便于离线浏览

-l 指定递归层数,对-r起作用

wget -p --convert-links http://rubyer.me/dir/page.html 

-p 会下载所有网页需要的css,js和其它文件。便于离线浏览

wget -nc -r http://www.rubyer.me

-nc wget正在下载时被打断,不想覆盖以前的下载,就用这个参数

wget -c http://rubyer.me/file.zip

断点续传,如果已经存在ls-LR.Z,Wget就会假定已经下载一部分,并会跳过文件大小后继续下载

wget -A gif,jpg http://rubyer.me

只会下载以gif和jpg结尾的网址

wget -R mpg,mpeg,au* http://rubyer.me 

与-A相反

au*使用了能配符,表示任意长度的任意字符。

wget -I /article,/catelog http://rubyer.me 

只下载网站/article, /catelog目录下的内容,忽略其它目录

-I 后参数为允许下载的地址列表,多个地址用逗号隔开,地址中可以有通配符,注意地址要省去http:..**/

 wget -X addr_list 

与-I相反,不允许下载的地址列表

wget -np 

不递归下载父目录的内容,这很有用