web数据挖掘与电子商务周学习计划与作业要求(第5-6周,3月23日-4月5日)

282 阅读1分钟

学习目标

  1. 简单爬虫与高性能html内容解析

学习计划

  1. 【MogoDB】学习web数据挖掘与电子商务的第4章和第5章节的内容中;

  2. 一个整合在线编译器的在线学Python网站:learnpython

作业要求

第5-6周作业要求:

  1. 利用多线程爬虫,从看努努小说网爬取刘慈欣的《球状闪电》小说所有章节,并在本地自动创建一个“球状闪电”文件夹,将爬取的每一章内容以txt文件形式分别保存在这个文件夹中,文件名称为:“第xx章.txt”
  2. 根据百度新闻(news.baidu.com/)的标题搜索功能,爬取特定关键词相关新闻条目;爬取信息:新闻发布时间、新闻来源、新闻链接;爬取的信息存入Mysql数据库;使用XPath或者Beautiful Soup提取信息