95_api_intro_websitetools_readability

49 阅读2分钟

网页可读内容抽取 API 数据接口

智能提取文章关键元素信息,智能抽取,多种元素信息。

gugudata_api_cover

1. 产品功能

  • 智能提取网页可阅读内容;
  • 提供网页可阅读内容的 HTML 代码;
  • 支持传递网页 HTML 或网页 URL 参数;
  • 支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含 HTML 标签,按段落分割)、文章长度、文章摘要、网站名称、文章发布时间;
  • 秒级解析性能,支持高并发;
  • 数据持续更新与维护;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: www.gugudata.com/api/details…

接口地址: api.gugudata.com/websitetool…

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: api.gugudata.com/websitetool…

数据预览: www.gugudata.com/preview/rea…

接口测试: api.gugudata.com/websitetool…

3. 请求参数

参数名参数类型是否必须默认值备注
appkeystringYOUR_APPKEY付费后获取的 APPKEY
htmlstringYOUR_VALUE需要抽取的网页 HTML 内容,与参数 url 二选一
urlstringYOUR_VALUE需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题)

4. 返回参数

参数名参数类型备注
DataStatus.RequestParameterstring接口请求参数
DataStatus.StatusCodeint接口返回状态码
DataStatus.StatusDescriptionstring接口返回状态说明
DataStatus.ResponseDateTimestring接口数据返回时间
DataStatus.DataTotalCountint此条件下的总数据量,一般用于分页计算
Data.Titlestring文章标题
Data.Bylinestring文章作者
Data.Dirstring文章文字方向
Data.Langstring文章语言
Data.Contentstring文章内容
Data.TextContentstring文章内容(不包含 HTML 标签,按段落分割)
Data.Lengthint文章长度
Data.Excerptstring文章摘要
Data.SiteNamestring网站名称
Data.PublishedTimestring[]文章发布时间