网页可读内容抽取 API 接口：智能获取正文、标题、摘要网页可读内容抽取 API 数据接口智能提取文章关键元素信息，智

📰 网页可读内容抽取 API 接口：一键解析文章正文结构

![gugudata_api_cover](p0-xtjj-private.juejin.cn/tos-cn-i-73…)

咕咕数据的网页内容抽取 API 提供结构化解析功能，帮助开发者从任意网页中提取出文章标题、正文内容、摘要、语言、作者、发布时间等关键字段，支持传入 URL 或 HTML 原始内容，适配多种内容处理场景。

✨ 产品功能亮点

✅ 自动提取网页中用户可读正文（包含 HTML 与纯文本版本）；
✅ 支持传入 URL 地址或 HTML 原始源码；
✅ 返回包括标题、作者、语言、网站名称、正文、摘要等；
✅ 秒级响应，适合大规模调用；
✅ HTTPS 全面兼容，支持 Apple ATS；
✅ 全国多节点部署，服务稳定；
✅ 提供接口状态实时监控服务：

👉 [接口调用状态监控页](www.gugudata.com/status\)

📘 API 文档信息

接口地址：
`api.gugudata.com/websitetool…
请求方式：
`POST`
返回格式：
`application/json; charset=utf-8`
API 文档地址：
[www.gugudata.com/api/details…]
在线接口测试：
[api.gugudata.com/websitetool…]
数据预览：
[www.gugudata.com/preview/rea…]

🧾 请求参数说明

| 参数名 | 类型   | 是否必须 | 默认值      | 说明                                                                 |
|--------|--------|----------|-------------|----------------------------------------------------------------------|
| appkey | string | 是       | YOUR_APPKEY | 用户专属密钥，在控制台获取                                           |
| html   | string | 否       | YOUR_VALUE  | 网页 HTML 内容，与 url 二选一                                       |
| url    | string | 否       | YOUR_VALUE  | 网页 URL 地址，与 html 二选一                                       |

⚠️ 若网页源站有反爬保护导致无法抓取内容，接口将返回无法提取内容提示，建议传入 html 内容以规避。

🔁 返回字段说明

{
  "DataStatus": {
    "StatusCode": 200,
    "StatusDescription": "请求成功",
    "ResponseDateTime": "2025-05-29T10:00:00",
    "DataTotalCount": 1,
    "RequestParameter": "https://example.com/article/123"
  },
  "Data": {
    "Title": "人工智能将在 2030 年彻底改变医疗行业",
    "Byline": "作者：张伟",
    "Dir": "ltr",
    "Lang": "zh",
    "Content": "<div class='content'><p>随着人工智能的发展...</p></div>",
    "TextContent": "随着人工智能的发展...\n本报告预测...",
    "Length": 1023,
    "Excerpt": "随着人工智能的发展，医疗行业正面临一次革命性的变革...",
    "SiteName": "科技日报",
    "PublishedTime": ["2025-05-01T10:00:00+08:00"]
  }
}

| 字段名                    | 类型     | 说明                                               |
|---------------------------|----------|----------------------------------------------------|
| DataStatus.StatusCode     | int      | 状态码，200 表示请求成功                           |
| DataStatus.StatusDescription | string | 状态说明                                           |
| DataStatus.ResponseDateTime  | string | 响应时间戳                                         |
| DataStatus.DataTotalCount   | int    | 数据条数，一般为 1                                 |
| DataStatus.RequestParameter | string | 请求中传入的 URL 或 HTML，用于调试                |
| Data.Title                | string   | 文章标题                                           |
| Data.Byline               | string   | 作者信息（如“作者：张伟”）                        |
| Data.Dir                  | string   | 文字方向（如 ltr/rtl）                             |
| Data.Lang                 | string   | 语言编码（如 zh、en）                              |
| Data.Content              | string   | 原始 HTML 格式正文                                 |
| Data.TextContent          | string   | 去除 HTML 标签的正文，按段落分割                   |
| Data.Length               | int      | 正文长度                                           |
| Data.Excerpt              | string   | 正文摘要                                           |
| Data.SiteName             | string   | 来源网站名称                                       |
| Data.PublishedTime        | string[] | 发布时间，数组形式，含完整时间戳                   |

🔧 请求示例

POST https://api.gugudata.com/websitetools/readability
Content-Type: application/json

{
  "appkey": "YOUR_APPKEY",
  "url": "https://example.com/article/123"
}

🧠 应用场景推荐

📑 内容聚合平台：提取正文用于展示与聚合；
🗞️ 新闻资讯类应用：从源站中智能抓取文章摘要与核心信息；
🧠 NLP / 文本挖掘任务：获取干净文本用于分析、摘要、情感识别；
📦 备份工具 / 阅读器：解析出适配设备的精简文章内容；
🔍 搜索引擎爬虫：辅助去除网页冗余内容，仅保存正文结构；

📚 延伸阅读

[IP 归属地查询 API 接口](www.gugudata.com/api/details…)
[站点标题与图标提取 API 接口](www.gugudata.com/api/details…)
[网页正文提取实战与 NLP 应用场景分析](www.gugudata.com/blog/readab…)

咕咕数据提供丰富的网页智能处理工具，网页可读内容抽取 API 是构建内容分析平台、搜索引擎、聚合类系统的重要基础组件。

📬 获取 API Key：
[\点击注册获取 AppKey](www.gugudata.com/register\)

📈 立即接入网页内容解析 API，让网页内容处理更智能！