Web Scraper爬虫工具(3)——采集1688供应商信息

493 阅读1分钟

采集多个供应商的详细信息

获取多个供应商首页的链接

1.修改supplier_block的sector
在这里插入图片描述
2.在supplier_block中添加新的sector
在这里插入图片描述
data-gokey中可以获取每一个厂家详细信息首页的链接

3.点击scrape爬取数据,点击Export data导出数据
在这里插入图片描述
4.对表格进行处理
4.1对H列进行复制到I列
在这里插入图片描述

4.2J列对I列数据进行处理得到每个工厂卡片的链接
=“”“sale.1688.com/factory/car…
在这里插入图片描述

获取每个供应商首页信息

1.创建一个新的Sitemaps命名为supplier_factory_info
在这里插入图片描述

2.工厂基础信息模块
在supplier_factory_info中添加selector命名为factory_basic_info_block
在这里插入图片描述

3.工厂展厅模块
在supplier_factory_info中添加selector命名为factory_overview_info_block
在这里插入图片描述

4.工厂厂线模块
在supplier_factory_info中添加selector命名为factory_prod_info_block
在这里插入图片描述

获取每个板块的详细信息

1.工厂基础信息模块:工厂名、位置

name

在factory_basic_info_block中添加selector命名为name
在这里插入图片描述
注意:name要通过这样获取,不然有些工厂获取不到
div[style=“font-family:PingFangSC-Medium;font-size:26px;line-height:28px;color:#121212;”]

location

在factory_basic_info_block中添加selector命名为location
在这里插入图片描述

2.工厂展厅模块

在factory_overview_info_block中添加选择器,type为text
在这里插入图片描述

3.工厂厂线模块

在factory_prod_info_block中添加选择器,type为text
在这里插入图片描述

将多个供应商工厂链接导入

1.点击Export Sitemap
在这里插入图片描述
2.复制到菜鸟工具进行格式化
网址为:c.runoob.com/front-end/5…
在这里插入图片描述
3.将多条供应商链接复制到菜鸟工具,然后进行格式化
在这里插入图片描述
在这里插入图片描述
4.将json格式代码复盖原来的代码,或者import Sitemap
在这里插入图片描述
在这里插入图片描述
5.点击Scrape,导出数据
在这里插入图片描述