本文已参与「新人创作礼」活动,一起开启掘金创作之路。
| 仅作为一个项目的学习记录 |
爬取电玩巴士部分文章作为后台数据。(爬虫相关代码见上一篇文章,Python编写简单搜索引擎之爬虫篇)
具体是学习Mooc网bobby老师的课程,个人总结教程之后再写。(多么鲜艳的Flag)
爬虫项目指路
技术栈
- Python3
- virtualenv、virtualenvwrapper(不必要,但建议使用, 安装教程 )
- 搜索引擎支撑elasticsearch:
- jdk8+
- elasticsearch-rtf:大神开发的适用于中文的版本
- elasticsearch-head:可视化数据
- kibana:运行不必要,学习ES建议安装
- 编写框架django:
pip install django
运行
- 项目地址
- 运行项目即可:
python manage.py runserver 8000- 在localhost:8000打开页面
- 运行界面like this……

不足
分词太细致导致搜索结果反而不太匹配搜索词,比如:

- 解决方案:
- 设置搜索模式,指定搜索使用term不对搜索词进行处理,粗略搜索延续match。
- 选用ik_smart等划分相对粗略的分析器。
| 欢迎指正与讨论! |