开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第1天,点击查看活动详情
前言
本人是面向百度编程的web前端小白,没有过多深入研究过架构的原理,停留在会用的阶段。了解python的起因是因为有个需求是爬取一个纯前端网站的源代码,这个网站是关于一些概念的介绍,几个tab页签,下面列表一堆概念标题可以进入查看详情。(把这个需求扔给我原因,纯属leader觉得我很闲,事实也确实如此,嘿嘿)
接下来就开始我的邂逅吧~
(个人性格导致,遇到任务总会想迅速完成,于是出现了如下离谱的一出😅,大家别太介意)
start
需求很清晰啦!你们猜猜我会干啥呢......
不就是爬取网页源代码嘛~ 来了来了!打开百度 “如何爬取网页源代码” enter回车
哦,是要用python呀!
再往下看,这都说的啥呀。。。F12控制台查看元素、右键查看网页源代码、乌拉瓦拉呜啊....讲的都是些啥啊,没有点实际的
拜拜ヾ(•ω•`)o
end
疯狂ctrl cv,ctrl s(心理活动:真讨厌,以后再也不想干这种活了。手指抽筋。。) 半个多小时后任务完成~,哦耶!打包发送leader
leader:你这咋弄的 me:保存的
leader:你这弄的太费劲了,学习学习咋爬取吧 me:好的
restart
继续看文档,既然要用python,那我就先下载吧(百度又来了 python的下载与安装)
d=====( ̄▽ ̄*)b 完成
走着~编辑器pyCharm("pyCharm的下载与安装") d=====( ̄▽ ̄*)b 完成
以上操作完成后自己建个项目和python文件尝试一下能否正常使用(说这个呢,当然是我遇到问题咯 解决办法当然不用多说 两个字——“xx”)
此外想安装一下插件(比如汉化插件等等)就自己来吧(tip:如软件上没有找到汉化插件,自己找个插件包拖入使用,注意插件包版本与编辑器版本一致哦)
态度端正,好好学习,认真记录
整个文档看下来用了两个核心库:
爬虫核心库1:requests库
安装:pip install requests
来吧!爬取!
import requests
url = 'https://www.baidu.com'
res = requests.get(url).text
print(res)
tip:这里的例子是百度的,可以正常爬取到,可以的!但做了一些“措施”的网页就有可能爬取不到,我这边使用了别的url,来吧展示
啊!正常操作当然是把这个错误想办法解决掉,但通过相关资料了解到:
| 优点 | 缺点 | |
|---|---|---|
| requests库 | 爬取速度快 | 有些网站爬取不到 |
| selenium库 | 能爬取95%以上的网站 | 爬取速度较慢 |
来吧!尝试!
爬虫核心库2:selenium库
selenium库的使用要结合网页模拟器:ChromeDriver,自行安装并配置环境变量。(注意:ChromeDriver版本需与谷歌浏览器一致)
pip install selenium (本人未安装成功,于是尝试使用了镜像)
pip install -i pypi.tuna.tsinghua.edu.cn/simple selenium
from selenium import webdriver
browser = webdriver.Chrome()
browser.get("要爬取网页的url")
data = browser.page_source # 核心代码
print(data)
哦耶!如我所愿成功了,但这并不是我想要的效果,但也对爬虫有了一些基础的了解,哈哈哈
over
回顾一下,还记得这个网页是啥样的不,有很多详情页,要想全部爬取下来可不止有这一个url,我身边的测试姐姐好像对这个爬取有一定的了解,她为了回顾一下,也有尝试了一下,我们也有沟通,她说可以通过获取节点写一套点击操作让所有页面自行下载,但这个超出了我的知识范围,于是我转移了思路。
查看了一些python的基础使用,发现可以通过循环,定义方法并结合下载语句来实现,这是本人的肤浅思考,大神可随意指点,有兴趣的也可以试试咯。
今天就先到这里吧,不推荐大家跟我一样只了解皮毛,要真的使用还是要深入学习哦,不要浅尝辄止,还有不要做思想上的巨人,行动上的矮子,加油吧,努力成为更好的自己!