python初学者是怎么写爬虫的?(16行代码爬百度)

71 阅读4分钟

pip3 install bs4

pip3 install requests

安装好后,输入

import requests

from bs4 import BeautifulSoup

F5运行如果不报错则说明安装成功。

打开浏览器,输入'www.baidu.com',即进入百度,随便搜索什么,我这里用'python'为例

可以发现,百度搜索出来的链接为

www.baidu.com/s?ie=utf-8&…****

最后可以简化为:

www.baidu.com/s?wd=python

所以首先尝试获取搜索结果的html:

import requests

from bs4 import BeautifulSoup

url='www.baidu.com/s?wd='+'pyt…'

headers = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9","User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.16 Safari/537.36"}

html = requests.get(url,headers=headers).text

print(html)

然后,我们再从HTML里面找出我们想要的

在这里插入图片描述

可以看爬下来的数据也可以使用谷歌浏览器的F12

这里已谷歌的F12为例

在这里插入图片描述

可以发现,div标签中

  • class为’result c-container '的为非百度,非广告的内容(我们需要的内容)

  • class为’result-op c-container xpath-log’的为百度自家的内容(可以按需筛选)

  • class为其它的都为广告

首先定义筛选

soup = BeautifulSoup(html, 'html.parser')

使用for循环找出所有div标签,且class为’result c-container’

for div in soup.find_all('div',class_="result c-container"):

print(div)

让后再次使用for循环在其中找出h3标签

for div in soup.find_all('div',class_="result c-container"):

#print(div)注释掉方便检查代码

for h3 in div.find_all('h3'):

print(h3.text)

再次寻找出标题和链接(a标签)

for div in soup.find_all('div',class_="result c-container"):

#print(div)

for h3 in div.find_all('h3'):

#print(h3.text)

for a in h3.find_all('a'):

print(a.text,' url:',a['href'])

最后

Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

了解详情:docs.qq.com/doc/DSnl3ZG…