python初学者是怎么写爬虫的？(16行代码爬百度)pip3 install bs4 pip3 install req

pip3 install bs4

pip3 install requests

安装好后，输入

import requests

from bs4 import BeautifulSoup

F5运行如果不报错则说明安装成功。

打开浏览器，输入'www.baidu.com'，即进入百度，随便搜索什么，我这里用'python'为例

可以发现，百度搜索出来的链接为

www.baidu.com/s?ie=utf-8&…****

最后可以简化为:

www.baidu.com/s?wd=python

所以首先尝试获取搜索结果的html:

import requests

from bs4 import BeautifulSoup

url='www.baidu.com/s?wd='+'pyt…'

headers = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9","User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.16 Safari/537.36"}

html = requests.get(url,headers=headers).text

print(html)

然后，我们再从HTML里面找出我们想要的

在这里插入图片描述

可以看爬下来的数据也可以使用谷歌浏览器的F12

这里已谷歌的F12为例

在这里插入图片描述

可以发现，div标签中

class为’result c-container '的为非百度，非广告的内容(我们需要的内容)
class为’result-op c-container xpath-log’的为百度自家的内容(可以按需筛选)
class为其它的都为广告

首先定义筛选

soup = BeautifulSoup(html, 'html.parser')

使用for循环找出所有div标签，且class为’result c-container’

for div in soup.find_all('div',class_="result c-container"):

print(div)

让后再次使用for循环在其中找出h3标签

for div in soup.find_all('div',class_="result c-container"):

#print(div)注释掉方便检查代码

for h3 in div.find_all('h3'):

print(h3.text)

再次寻找出标题和链接(a标签)

for div in soup.find_all('div',class_="result c-container"):

#print(div)

for h3 in div.find_all('h3'):

#print(h3.text)

for a in h3.find_all('a'):

print(a.text,' url:',a['href'])

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！