首先来介绍一下爬虫,我对它的理解是一种能自动从网上采集指定的、规模较大的、存放位置有一定规律的数据的计算机程序。通常分为HTML数据获取、通过目标信息来解析数据、存储目标信息。今天主要讲HTML数据获取。本人使用的是Python3.6
HTML数据获取
使用requests库来实现。
通用爬虫框架
import requests
def getHTMLTxt(url):
try:
r=requests.get(url)
r.raise_for_status()#如果返回值不是200,引发HTTPError异常
r.encoding=r.apparent_encoding
return r.text
except:
return "爬取异常"
if __name__=='__main__':
url='https://item.jd.com/100004323294.html'
print(getHTMLTxt(url))