本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于腾讯云 作者:努力在北京混出人样
( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
利用python爬虫来抓取你要的网页内容,实际上是对该内容的一次阅读,这样可以带来阅读量的增加。这次以爬去CSDN博客为例,其他的网站也许要另外设置。
使用python第三方包有:bs4、requests、time
这里间歇时间设置为2秒
采用headers来隐藏,原因是:CSDN设置了防爬虫的措施。采用headers可以避开,成功获取CSDN网页内容。
代码如下:
from bs4 import BeautifulSoup
import requests
import time
url =('http://blog.csdn.net/googdev/article/details/52575079')
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
for i in xrange(10000):
time.sleep(2)
req = requests.get(url,headers =headers )
soup = BeautifulSoup(req.text,'lxml')
rank = soup.select('#blog_rank')
view = soup.select('.article_manage .link_view .title')
print view
print i
若是你想采用这个代码,只需要对headers修改即可。关于如何获取headers可以百度下或谷歌下。方法很简单的,相信你也能学会这个很简单的方法。