python基础（23）「这是我参与2022首次更文挑战的第23天，活动详情查看：2022首次更文挑战」。这次我们来接

「这是我参与2022首次更文挑战的第23天，活动详情查看：2022首次更文挑战」。

这次我们来接触一下爬虫，先说说思路把，你要爬东西肯定得知道自己要爬什么吧？就像我们公司是卖家电的，那么我们就会从tb上找出竞品的一些信息。例如在tb上搜电烤箱

淘宝后面会跟很多的

[电烤箱_淘宝搜索 (taobao.com)](https://s.taobao.com/search?q=%E7%94%B5%E7%83%A4%E7%AE%B1&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.jianhua.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306)

不知道大家发现没，变化的只有框框里面的东西。

最后我们可以发现url可以是

s.taobao.com/search?q=电烤…

我们先把url抓下来再说。

import requests
url = 'https://s.taobao.com/search?q=电烤箱'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}
res = requests.get(url,headers = headers)

print(res)

什么都没有？哈哈因为，我们要打印的是res.text格式，但是这里还是不打印了，怕死机。但我们可以将它写入一个文档里。

我们来试试：

with open('items.txt','w',encoding = 'utf-8') as file:
     file.write(res.text)

我们可以在python文件对应的目录下找到items文件，打开来看，就是以下内容

太复杂啦，当然，我们只是抓下来看看，接下来，我们要干什么呢？那肯定是要看电烤箱的销量情况咯，那我们就要用销量来排个序，在淘宝里用的是&sort=sale-desc

让我们观察一下刚抓下来的文件，看有什么特征，大家都懂前端的知识，不难发现，销量信息都在g_page_config这标签里面，里面用到的是json格式来储存信息的。但是要从里面挑选我们想要的东西，那就要用到正则表达式和bs4了。

这后面的文章中我们再来提及（re和bs4），今天主要就是给大家抓网站用requests，相当的方便。