python基础(23)

88 阅读2分钟

「这是我参与2022首次更文挑战的第23天,活动详情查看:2022首次更文挑战」。

这次我们来接触一下爬虫,先说说思路把,你要爬东西肯定得知道自己要爬什么吧?就像我们公司是卖家电的,那么我们就会从tb上找出竞品的一些信息。例如在tb上搜电烤箱

淘宝后面会跟很多的

[电烤箱_淘宝搜索 (taobao.com)](https://s.taobao.com/search?q=%E7%94%B5%E7%83%A4%E7%AE%B1&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.jianhua.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306)

不知道大家发现没,变化的只有框框里面的东西。

image.png

最后我们可以发现url可以是

s.taobao.com/search?q=电烤…

我们先把url抓下来再说。

import requests
url = 'https://s.taobao.com/search?q=电烤箱'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}
res = requests.get(url,headers = headers)

print(res)

什么都没有?哈哈因为,我们要打印的是res.text格式,但是这里还是不打印了,怕死机。但我们可以将它写入一个文档里。

image.png

我们来试试:

with open('items.txt','w',encoding = 'utf-8') as file:
     file.write(res.text)

我们可以在python文件对应的目录下找到items文件,打开来看,就是以下内容 image.png

太复杂啦,当然,我们只是抓下来看看,接下来,我们要干什么呢?那肯定是要看电烤箱的销量情况咯,那我们就要用销量来排个序,在淘宝里用的是&sort=sale-desc

让我们观察一下刚抓下来的文件,看有什么特征,大家都懂前端的知识,不难发现,销量信息都在g_page_config这标签里面,里面用到的是json格式来储存信息的。但是要从里面挑选我们想要的东西,那就要用到正则表达式和bs4了。

这后面的文章中我们再来提及(re和bs4),今天主要就是给大家抓网站用requests,相当的方便。