持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第12天，10月更文诚意加码，激发写作潜力｜掘金·日新计划 - 掘金 (juejin.cn)点击查看活动详情

爬虫百度

通用爬虫：抓取互联网中的一整张页面数据

爬虫：通过编写程序来获取到互联网上的资源 爬虫百度 需求：用程序模拟浏览器，输入一个网址，然后从该网址中获取到资源或者内容 用python搞定以上请求，特别的简单 利用爬虫代码爬取百度首页

这是python基本语法，从urllib.request里把urlopen导出来 url是跟网址相关的一个库从urllib找request库，找urlopen.

源代码： 首先导入requests包 第一步指定好URL：

from urllib.request import urlopen

resp = urlopen(url) # 得到响应 使用requests的get方法发起请求，如下图所示，url使用上面的url，参数使用上面定义的param，请求头则使用head

持久化存储，写入文件

获取字符串类型的响应数据

with open("mybaidu.html", mode="w") as f:
    f.write(resp.read().decode("utf-8"))
print("over爬虫百度网页爬取成功!")

通过编程，模拟浏览器上网，然后让其去互联网上抓取数据的过程，大家一般都是用来爬取网上的数据玩，有时候也会用爬虫来下载图片

User-agent伪装（ua伪装），服务器会识别不是浏览器访问的请求，并对非浏览器访问的请求进行拦截。ua是一个以字典形式存储的信息，存放的是请求端的类型。不同浏览器，对应的ua是不一样的。

用的模块为requests