开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第1天，点击查看活动详情

前言

本人是面向百度编程的web前端小白，没有过多深入研究过架构的原理，停留在会用的阶段。了解python的起因是因为有个需求是爬取一个纯前端网站的源代码，这个网站是关于一些概念的介绍，几个tab页签，下面列表一堆概念标题可以进入查看详情。（把这个需求扔给我原因，纯属leader觉得我很闲，事实也确实如此，嘿嘿）
接下来就开始我的邂逅吧~
（个人性格导致，遇到任务总会想迅速完成，于是出现了如下离谱的一出😅，大家别太介意）

start

需求很清晰啦！你们猜猜我会干啥呢......
不就是爬取网页源代码嘛~ 来了来了！打开百度 “如何爬取网页源代码” enter回车
哦，是要用python呀！
再往下看，这都说的啥呀。。。F12控制台查看元素、右键查看网页源代码、乌拉瓦拉呜啊....讲的都是些啥啊，没有点实际的

拜拜ヾ(•ω•`)o

end

疯狂ctrl cv，ctrl s（心理活动：真讨厌，以后再也不想干这种活了。手指抽筋。。）半个多小时后任务完成~，哦耶！打包发送leader

leader：你这咋弄的 me：保存的
leader：你这弄的太费劲了，学习学习咋爬取吧 me：好的

restart

继续看文档，既然要用python，那我就先下载吧(百度又来了 python的下载与安装)
d=====(￣▽￣*)b 完成
走着~编辑器pyCharm("pyCharm的下载与安装") d=====(￣▽￣*)b 完成
以上操作完成后自己建个项目和python文件尝试一下能否正常使用（说这个呢，当然是我遇到问题咯解决办法当然不用多说两个字——“xx”）
此外想安装一下插件(比如汉化插件等等)就自己来吧(tip:如软件上没有找到汉化插件，自己找个插件包拖入使用，注意插件包版本与编辑器版本一致哦)

态度端正，好好学习，认真记录
整个文档看下来用了两个核心库：

爬虫核心库1：requests库

安装：pip install requests
来吧！爬取!

import requests
url = 'https://www.baidu.com'
res = requests.get(url).text
print(res)

tip：这里的例子是百度的，可以正常爬取到，可以的！但做了一些“措施”的网页就有可能爬取不到，我这边使用了别的url，来吧展示啊！正常操作当然是把这个错误想办法解决掉，但通过相关资料了解到：

	优点	缺点
requests库	爬取速度快	有些网站爬取不到
selenium库	能爬取95%以上的网站	爬取速度较慢

来吧！尝试！

爬虫核心库2：selenium库

selenium库的使用要结合网页模拟器：ChromeDriver，自行安装并配置环境变量。(注意:ChromeDriver版本需与谷歌浏览器一致)
pip install selenium （本人未安装成功，于是尝试使用了镜像）
pip install -i pypi.tuna.tsinghua.edu.cn/simple selenium

from selenium import webdriver
browser = webdriver.Chrome()
browser.get("要爬取网页的url")
data = browser.page_source  # 核心代码
print(data)

哦耶！如我所愿成功了，但这并不是我想要的效果，但也对爬虫有了一些基础的了解，哈哈哈

over

回顾一下，还记得这个网页是啥样的不，有很多详情页，要想全部爬取下来可不止有这一个url，我身边的测试姐姐好像对这个爬取有一定的了解，她为了回顾一下，也有尝试了一下，我们也有沟通，她说可以通过获取节点写一套点击操作让所有页面自行下载，但这个超出了我的知识范围，于是我转移了思路。

查看了一些python的基础使用，发现可以通过循环，定义方法并结合下载语句来实现，这是本人的肤浅思考，大神可随意指点，有兴趣的也可以试试咯。

今天就先到这里吧，不推荐大家跟我一样只了解皮毛，要真的使用还是要深入学习哦，不要浅尝辄止，还有不要做思想上的巨人，行动上的矮子，加油吧，努力成为更好的自己！

与python的初次邂逅