爬虫小白的学习笔记(1)

105 阅读1分钟

首先来介绍一下爬虫,我对它的理解是一种能自动从网上采集指定的、规模较大的、存放位置有一定规律的数据的计算机程序。通常分为HTML数据获取、通过目标信息来解析数据、存储目标信息。今天主要讲HTML数据获取。本人使用的是Python3.6

HTML数据获取

使用requests库来实现。

通用爬虫框架
import requests
def getHTMLTxt(url):
	try:
		r=requests.get(url)
		r.raise_for_status()#如果返回值不是200,引发HTTPError异常
		r.encoding=r.apparent_encoding
		return r.text
	except:
		return "爬取异常"

if __name__=='__main__':
	url='https://item.jd.com/100004323294.html'
	print(getHTMLTxt(url))