阅读 27

Python爬虫对网页URL的分析

Python爬虫的最基本的信息是什么呢,当然是URL了,我们需要的所有信息都要通过URL来获取,那你了解URL吗
今天就以百度图片的URL为例来学习一些关于URL的信息
百度图片杨幂,获取URL:

image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%D1%EE%C3%DD&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111

这时获取的是一个瀑布流的网页,如果我们将index改变为flip:

image.baidu.com/search/flip?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%D1%EE%C3%DD&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111

图片改为页码的方式
在这里插入图片描述
我们发现,图片的URL不仅仅是索引,而且存储一些信息,整体解析这个URL,可以看到前半部分是百度图片的网址https://image.baidu.com/,而后面则是由一个个键值对组成的,并且两个键值对之间由&分隔开,有些只有键没有值删掉也不影响正常的索引

tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%D1%EE%C3%DD&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111

文章分类
前端
文章标签