网页可读内容抽取 API 接口:智能获取正文、标题、摘要

127 阅读3分钟

📰 网页可读内容抽取 API 接口:一键解析文章正文结构

![gugudata_api_cover](p0-xtjj-private.juejin.cn/tos-cn-i-73…)

咕咕数据的网页内容抽取 API 提供结构化解析功能,帮助开发者从任意网页中提取出文章标题、正文内容、摘要、语言、作者、发布时间等关键字段,支持传入 URL 或 HTML 原始内容,适配多种内容处理场景。


✨ 产品功能亮点

  • ✅ 自动提取网页中用户可读正文(包含 HTML 与纯文本版本);
  • ✅ 支持传入 URL 地址或 HTML 原始源码;
  • ✅ 返回包括标题、作者、语言、网站名称、正文、摘要等;
  • ✅ 秒级响应,适合大规模调用;
  • ✅ HTTPS 全面兼容,支持 Apple ATS;
  • ✅ 全国多节点部署,服务稳定;
  • ✅ 提供接口状态实时监控服务:

👉 [接口调用状态监控页](www.gugudata.com/status\)


📘 API 文档信息


🧾 请求参数说明

| 参数名 | 类型   | 是否必须 | 默认值      | 说明                                                                 |
|--------|--------|----------|-------------|----------------------------------------------------------------------|
| appkey | string | 是       | YOUR_APPKEY | 用户专属密钥,在控制台获取                                           |
| html   | string | 否       | YOUR_VALUE  | 网页 HTML 内容,与 url 二选一                                       |
| url    | string | 否       | YOUR_VALUE  | 网页 URL 地址,与 html 二选一                                       |

⚠️ 若网页源站有反爬保护导致无法抓取内容,接口将返回无法提取内容提示,建议传入 html 内容以规避。


🔁 返回字段说明

{
  "DataStatus": {
    "StatusCode": 200,
    "StatusDescription": "请求成功",
    "ResponseDateTime": "2025-05-29T10:00:00",
    "DataTotalCount": 1,
    "RequestParameter": "https://example.com/article/123"
  },
  "Data": {
    "Title": "人工智能将在 2030 年彻底改变医疗行业",
    "Byline": "作者:张伟",
    "Dir": "ltr",
    "Lang": "zh",
    "Content": "<div class='content'><p>随着人工智能的发展...</p></div>",
    "TextContent": "随着人工智能的发展...\n本报告预测...",
    "Length": 1023,
    "Excerpt": "随着人工智能的发展,医疗行业正面临一次革命性的变革...",
    "SiteName": "科技日报",
    "PublishedTime": ["2025-05-01T10:00:00+08:00"]
  }
}
| 字段名                    | 类型     | 说明                                               |
|---------------------------|----------|----------------------------------------------------|
| DataStatus.StatusCode     | int      | 状态码,200 表示请求成功                           |
| DataStatus.StatusDescription | string | 状态说明                                           |
| DataStatus.ResponseDateTime  | string | 响应时间戳                                         |
| DataStatus.DataTotalCount   | int    | 数据条数,一般为 1                                 |
| DataStatus.RequestParameter | string | 请求中传入的 URL 或 HTML,用于调试                |
| Data.Title                | string   | 文章标题                                           |
| Data.Byline               | string   | 作者信息(如“作者:张伟”)                        |
| Data.Dir                  | string   | 文字方向(如 ltr/rtl)                             |
| Data.Lang                 | string   | 语言编码(如 zh、en)                              |
| Data.Content              | string   | 原始 HTML 格式正文                                 |
| Data.TextContent          | string   | 去除 HTML 标签的正文,按段落分割                   |
| Data.Length               | int      | 正文长度                                           |
| Data.Excerpt              | string   | 正文摘要                                           |
| Data.SiteName             | string   | 来源网站名称                                       |
| Data.PublishedTime        | string[] | 发布时间,数组形式,含完整时间戳                   |

🔧 请求示例

POST https://api.gugudata.com/websitetools/readability
Content-Type: application/json

{
  "appkey": "YOUR_APPKEY",
  "url": "https://example.com/article/123"
}

🧠 应用场景推荐

  • 📑 内容聚合平台:提取正文用于展示与聚合;
  • 🗞️ 新闻资讯类应用:从源站中智能抓取文章摘要与核心信息;
  • 🧠 NLP / 文本挖掘任务:获取干净文本用于分析、摘要、情感识别;
  • 📦 备份工具 / 阅读器:解析出适配设备的精简文章内容;
  • 🔍 搜索引擎爬虫:辅助去除网页冗余内容,仅保存正文结构;

📚 延伸阅读


咕咕数据提供丰富的网页智能处理工具,网页可读内容抽取 API 是构建内容分析平台、搜索引擎、聚合类系统的重要基础组件。

📬 获取 API Key:
[\点击注册获取 AppKey](www.gugudata.com/register\)

📈 立即接入网页内容解析 API,让网页内容处理更智能!