通过LinkExtractor类提取链接使用LinkExtractor类可以方便地从网页中提取链接。以下是使用LinkE

　　使用LinkExtractor类可以方便地从网页中提取链接。以下是使用LinkExtractor类提取链接的基本步骤：

　　导入LinkExtractor类：

　　在Python脚本中导入LinkExtractor类：

　　from scrapy.linkextractors import LinkExtractor

　　创建LinkExtractor对象：

　　使用LinkExtractor类创建链接提取器对象，指定要提取的链接规则：

　　link_extractor=LinkExtractor(allow=r'/page/',restrict_xpaths=['//div[ class="content"]'])

　　allow=r'/page/'：这里使用allow参数指定要提取的链接的规则，这个例子中是提取所有URL中包含/page/的链接。

　　restrict_xpaths=['//div[ class="content"]']：使用restrict_xpaths参数指定要在哪些XPath表达式匹配的区域中提取链接。

　　提取链接：

　　在Spider的parse方法中使用创建的LinkExtractor对象提取链接：

　　def parse(self,response):

　　links=link_extractor.extract_links(response)

　　for link in links:

　　#处理提取的链接

　　print(link.url)

　　使用extract_links方法从响应中提取链接，返回一个包含提取的链接的列表。

　　遍历提取的链接列表，可以对每个链接进行进一步处理。

　　通过以上步骤，您可以使用LinkExtractor类方便地从网页中提取链接。这样可以轻松地获取页面中符合特定规则的链接，并进一步处理这些链接或者跟踪这些链接进行爬取。

通过LinkExtractor类提取链接.png