BaiduSpider:爬取百度的利器

3,380 阅读1分钟

BaiduSpider是一个能够爬取百度搜索结果的Python爬虫,使用requests与BeautifulSoup4编写,轻量但强大。目前支持百度网页搜索,百度图片搜索,百度知道搜索,百度视频搜索,百度资讯搜索,百度文库搜索,百度经验搜索和百度百科搜索。并且,它目前支持四个平台:原生,Api,Web,CLI。最最关键的是,它还能去广告!来看一下对比:

百度:

原生百度

BaiduSpider

BaiduSpider

可见百度的几乎都是广告,而BaiduSpider自动过滤掉了所有的广告,只保留了搜索结果。


BaiduSpider GitHub:github.com/samzhangjy/…

BaiduSpider 文档:samzhangjy.github.io/BaiduSpider

欢迎star和fork!!