学习目标
- 简单爬虫与高性能html内容解析
学习计划
-
【MogoDB】学习web数据挖掘与电子商务的第4章和第5章节的内容中;
-
一个整合在线编译器的在线学Python网站:learnpython
作业要求
第5-6周作业要求:
- 利用多线程爬虫,从看努努小说网爬取刘慈欣的《球状闪电》小说所有章节,并在本地自动创建一个“球状闪电”文件夹,将爬取的每一章内容以txt文件形式分别保存在这个文件夹中,文件名称为:“第xx章.txt”
- 根据百度新闻(news.baidu.com/)的标题搜索功能,爬取特定关键词相关新闻条目;爬取信息:新闻发布时间、新闻来源、新闻链接;爬取的信息存入Mysql数据库;使用XPath或者Beautiful Soup提取信息