爬虫百度

153 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第12天,10月更文诚意加码,激发写作潜力|掘金·日新计划 - 掘金 (juejin.cn)点击查看活动详情

1 3 手刃一个小爬虫(上)_哔哩哔哩_bilibili

爬虫百度

通用爬虫:抓取互联网中的一整张页面数据

爬虫:通过编写程序来获取到互联网上的资源 爬虫百度 需求:用程序模拟浏览器,输入一个网址,然后从该网址中获取到资源或者内容 用python搞定以上请求,特别的简单 利用爬虫代码爬取百度首页

这是python基本语法,从urllib.request里把urlopen导出来 url是跟网址相关的一个库 从urllib找request库,找urlopen.

源代码: 首先导入requests包 第一步指定好URL:

from urllib.request import urlopen 

打开一个网址

url = "www.baidu.com"

第二步发起请求

resp = urlopen(url) # 得到响应 使用requests的get方法发起请求,如下图所示,url使用上面的url,参数使用上面定义的param,请求头则使用head

第三步 获取到相应数据

持久化存储,写入文件

获取字符串类型的响应数据

with open("mybaidu.html", mode="w") as f:
    f.write(resp.read().decode("utf-8"))
print("over爬虫百度网页爬取成功!")

本地运行代码,会发现同目录下出现一个名为mybaidu.html的文件

通过编程,模拟浏览器上网,然后让其去互联网上抓取数据的过程,大家一般都是用来爬取网上的数据玩,有时候也会用爬虫来下载图片

User-agent伪装(ua伪装),服务器会识别不是浏览器访问的请求,并对非浏览器访问的请求进行拦截。ua是一个以字典形式存储的信息,存放的是请求端的类型。不同浏览器,对应的ua是不一样的。

用的模块为requests

image.png