阅读 395

【Python实战】这一次,他通过公众号访问最新的1024资讯信息,干货,有彩蛋

此次实战项目清单:

  • WeRoBot框架开发自动回复微信机器人
  • Tornado开发后台
  • MongoDB做数据存贮
  • Scrapyd部署爬虫
  • Scrapy编写爬虫
  • 把这些都部署在阿里云服务器上
  • 用Python编写
    把这些东西混在一起,就实现了,通过微信公众号来获取每日新鲜资讯的功能

废话不多说,先上图,看效果!


网页丑,请原谅我,我不是专门写前端的,前端知识我会日后补上的。为什么选择电脑端访问,因为手机上访问可能还是有些限制,但是电脑端访问完全没有问题啊!这效果赞不赞?牛不牛?

这还不赶紧关注一波『皮克啪的铲屎官』?我都干货做到这份上了,大家还不帮我推广分享一下?让更多的人来享受学习的乐趣。

开发思路

既然看到了效果,那么我们现在就来扯一扯实现这个过程的来龙去脉。

首先,我们白日做梦一下, 想着我怎么能够通过微信公众号来访问网站啊?

这里给出答案:我们需要一个微信自动回复的机器人,因为这样,我就不需要每天自己登陆网页端,复制黏贴编写材料了,用电脑来代替我的劳动,这样我多轻松。
这里就是WeRoBot的使用场景。

接下来,我们如果有了自动回复机器人,那么我们拿什么来看呢?

这里给出答案:我们需要在远端架设一台服务器,上面需要跑起来一套网站的服务。给我们提供一个网页,里面有我们想要的资讯信息。
这就是阿里云服务器(腾讯的也可以)和Tornado的使用场景。

接着,我们还得研究,我网页上的数据,从哪里来啊??

这里给我出答案:网页端读取的数据,都应该是从数据库中读的。
这里就是MongoDB的使用场景。

知道数据从哪里读取的了,那么数据是从哪里来的啊?

这里给出答案:数据是来源,我们可以通过爬虫程序来爬下来。
这里就是Scray的使用场景了。

想到这里基本差不多了,中间在加一些粘合剂,我们可以通过Scrapyd来把爬虫部署到远端服务器上,再通过一个定时装置来定时执行爬虫程序。这样我们就会有源源不断的数据更新了。而网页端,我们只需要展示当天的数据就可以了。这么下来,

一切都思路都很完美,就差一个程序员了,对吗?

我们选择用Python来搞事情,因为这个东西,很适合搞事情。

我们既然把整个逻辑都想好了,那么我们倒着来撸这件事情。

之前的几篇文章:

【Python实战】手把手超详细教程教你Scrapy爬达盖尔社区,有彩蛋
【Python实战】用Scrapy编写“1024网站种子吞噬爬虫”,送福利
【Python实战】用代码来访问1024网站,送福利
【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上

我已经把怎样写爬虫,以及怎样把爬虫部署到服务器上,都讲的很细很细了,而且还有手把手的教程讲解,可谓非常良心了。这里我就略过了。

接下来,我们用到了MongoDB,这个的安装过程,我在上一篇文章中讲的很清楚了:

【Python实战】在阿里云服务器上安装MongoDB,并实现远程可视化连接

如果有什么不会的,可以给我留言,我会帮你解答的。

那么前面提到的这几个东西,就剩下WeRoBot和Tornado了。这个我准备在下一期文章中详细给大家讲解怎么开发。这里面的坑其实还不少,但是,我已经给大家踩过了。大家跟着我的步骤一步一步来就完全OK。

整体回顾

远端的服务器上面的爬虫,是Scrapy写的虫子。

通过Tornado的定时执行功能,会每一个小时执行一次。

将爬下来的数据存入到MongoDB中。

Tornado的路径对于的GET方法,会从MongoDB中读取数据,并传入到已经写好的html模板中。

WeRoBot则是依靠Tornado部署的,嵌入到了Tornado服务中。通过微信传过来的特定的指令,来做出返回结果并返回给客户端。

上面的内容就介绍这么多吧,希望大家能够喜欢。独乐乐不如众乐乐。如果大家喜欢铲屎官的文章,希望大家能够告诉身边更多的朋友,一起加入,来体验更多乐趣。

关注『皮克啪的铲屎官』,回复『Daily』,就会找到你内心深处最想要的东西。

                     这么硬货的公众号,你们还不赶紧关注一波啊?

                           





文章分类
前端