python库trafilatura,爬取网址的title和description

324 阅读1分钟

trafilatura 简介:

想象你是一个图书管理员,你的工作是从一大堆杂志中找出最重要的文章内容。trafilatura 就像是一个超级助手,它可以快速翻阅网页,跳过广告、菜单和其他无关内容,直接找到最重要的正文部分。

简明教程:

  1. 安装 trafilatura:

    pip install trafilatura
    
  2. 基本使用:

    import trafilatura
    
    url = "https://example.com"
    downloaded = trafilatura.fetch_url(url)
    text = trafilatura.extract(downloaded)
    
    print(text)  # 这里会打印出网页的主要内容
    
  3. 获取元数据:

    metadata = trafilatura.extract_metadata(downloaded)
    print(metadata.title)  # 打印网页标题
    print(metadata.description)  # 打印网页描述
    

对比:

  1. requests 方法:

    • 优点: 简单,适合基础的网页抓取
    • 缺点: 只获取原始 HTML,需要自己解析内容
    • 比喻: 像是自己翻阅杂志,需要自己判断哪些是重要内容
  2. playwright 方法:

    • 优点: 可以处理动态加载的网页,模拟真实浏览器
    • 缺点: 设置复杂,运行较慢
    • 比喻: 像是雇了一个人实际去浏览网页,功能强大但有点"大材小用"
  3. trafilatura 方法:

    • 优点: 专门设计用于提取网页主要内容,使用简单
    • 缺点: 对于高度动态的网页可能不如 playwright
    • 比喻: 像是有了一个经验丰富的助手,知道如何快速找到重要信息

总结:

  • 如果你只需要简单地下载网页,用 requests
  • 如果你需要处理复杂的、动态加载的网页,用 playwright
  • 如果你主要是想获取网页的文本内容,trafilatura 是最佳选择

trafilatura 特别适合初学者,因为它既简单又强大,能够处理大多数常见的网页内容提取任务。