📰 网页可读内容抽取 API 接口:一键解析文章正文结构

咕咕数据的网页内容抽取 API 提供结构化解析功能,帮助开发者从任意网页中提取出文章标题、正文内容、摘要、语言、作者、发布时间等关键字段,支持传入 URL 或 HTML 原始内容,适配多种内容处理场景。
✨ 产品功能亮点
- ✅ 自动提取网页中用户可读正文(包含 HTML 与纯文本版本);
- ✅ 支持传入 URL 地址或 HTML 原始源码;
- ✅ 返回包括标题、作者、语言、网站名称、正文、摘要等;
- ✅ 秒级响应,适合大规模调用;
- ✅ HTTPS 全面兼容,支持 Apple ATS;
- ✅ 全国多节点部署,服务稳定;
- ✅ 提供接口状态实时监控服务:
👉 [接口调用状态监控页](www.gugudata.com/status\)
📘 API 文档信息
-
请求方式:
`POST` -
返回格式:
`application/json; charset=utf-8` -
API 文档地址:
[www.gugudata.com/api/details…] -
在线接口测试:
[api.gugudata.com/websitetool…] -
数据预览:
[www.gugudata.com/preview/rea…]
🧾 请求参数说明
| 参数名 | 类型 | 是否必须 | 默认值 | 说明 |
|--------|--------|----------|-------------|----------------------------------------------------------------------|
| appkey | string | 是 | YOUR_APPKEY | 用户专属密钥,在控制台获取 |
| html | string | 否 | YOUR_VALUE | 网页 HTML 内容,与 url 二选一 |
| url | string | 否 | YOUR_VALUE | 网页 URL 地址,与 html 二选一 |
⚠️ 若网页源站有反爬保护导致无法抓取内容,接口将返回无法提取内容提示,建议传入 html 内容以规避。
🔁 返回字段说明
{
"DataStatus": {
"StatusCode": 200,
"StatusDescription": "请求成功",
"ResponseDateTime": "2025-05-29T10:00:00",
"DataTotalCount": 1,
"RequestParameter": "https://example.com/article/123"
},
"Data": {
"Title": "人工智能将在 2030 年彻底改变医疗行业",
"Byline": "作者:张伟",
"Dir": "ltr",
"Lang": "zh",
"Content": "<div class='content'><p>随着人工智能的发展...</p></div>",
"TextContent": "随着人工智能的发展...\n本报告预测...",
"Length": 1023,
"Excerpt": "随着人工智能的发展,医疗行业正面临一次革命性的变革...",
"SiteName": "科技日报",
"PublishedTime": ["2025-05-01T10:00:00+08:00"]
}
}
| 字段名 | 类型 | 说明 |
|---------------------------|----------|----------------------------------------------------|
| DataStatus.StatusCode | int | 状态码,200 表示请求成功 |
| DataStatus.StatusDescription | string | 状态说明 |
| DataStatus.ResponseDateTime | string | 响应时间戳 |
| DataStatus.DataTotalCount | int | 数据条数,一般为 1 |
| DataStatus.RequestParameter | string | 请求中传入的 URL 或 HTML,用于调试 |
| Data.Title | string | 文章标题 |
| Data.Byline | string | 作者信息(如“作者:张伟”) |
| Data.Dir | string | 文字方向(如 ltr/rtl) |
| Data.Lang | string | 语言编码(如 zh、en) |
| Data.Content | string | 原始 HTML 格式正文 |
| Data.TextContent | string | 去除 HTML 标签的正文,按段落分割 |
| Data.Length | int | 正文长度 |
| Data.Excerpt | string | 正文摘要 |
| Data.SiteName | string | 来源网站名称 |
| Data.PublishedTime | string[] | 发布时间,数组形式,含完整时间戳 |
🔧 请求示例
POST https://api.gugudata.com/websitetools/readability
Content-Type: application/json
{
"appkey": "YOUR_APPKEY",
"url": "https://example.com/article/123"
}
🧠 应用场景推荐
- 📑 内容聚合平台:提取正文用于展示与聚合;
- 🗞️ 新闻资讯类应用:从源站中智能抓取文章摘要与核心信息;
- 🧠 NLP / 文本挖掘任务:获取干净文本用于分析、摘要、情感识别;
- 📦 备份工具 / 阅读器:解析出适配设备的精简文章内容;
- 🔍 搜索引擎爬虫:辅助去除网页冗余内容,仅保存正文结构;
📚 延伸阅读
- [IP 归属地查询 API 接口](www.gugudata.com/api/details…)
- [站点标题与图标提取 API 接口](www.gugudata.com/api/details…)
- [网页正文提取实战与 NLP 应用场景分析](www.gugudata.com/blog/readab…)
咕咕数据提供丰富的网页智能处理工具,网页可读内容抽取 API 是构建内容分析平台、搜索引擎、聚合类系统的重要基础组件。
📬 获取 API Key:
[\点击注册获取 AppKey](www.gugudata.com/register\)
📈 立即接入网页内容解析 API,让网页内容处理更智能!