Elasticsearch:像超级英雄一样畅游网页内容

50 阅读4分钟

作者:来自 Elastic ppf2

多年来,Elastic 的网络爬虫经历了多次演变,以适应快速变化的数据采集格局(例如,生成式 AI 的最新进展)。

Swiftype 是流行 SaaS 产品 Site Search 的创建者,该产品让用户无需深厚的技术技能即可轻松地在其网站上放置搜索框。Site Search 在后台使用 Elasticsearch 来索引和搜索网络内容。2017 年,Swiftype 与 Elastic 联手,随后我们于 2021 年发布了 App Search 网络爬虫,可在 40 多个全球区域的 AWS、GCP 和 Azure 上用于 Elastic Cloud Hosted 和自我管理环境。2022 年,Elastic Web Crawler 发布,允许用户将抓取的内容直接采集到 Elasticsearch 索引中。

所有以前的网络爬虫(Swiftype Site Search、App Search 和 Elastic Web Crawlers)都需要运行包含许多不同工具的庞大私有企业搜索代码库。2024 年,Elastic 开始开发最新的 Elastic Open Crawler。这款轻量级开放代码爬虫与企业搜索分离,性能明显优于其前代产品。Open Crawler 目前处于测试阶段

这篇文章简要介绍了我们的爬虫产品的历史,概述了我们最新的 Elastic Open Crawler 的优势,并提供了帮助你入门的资源。

网络爬虫的演进

Swiftype Site Search CrawlerApp Search Web CrawlerElastic Web Crawler (3)Elastic Open CrawlerElastic managed Web Crawler (1)
Release statusGA (Maintenance only)GA (Maintenance only)GA (Maintenance only)Beta (Active development)On the roadmap
Compatible Elasticsearch versionsN/A7.15-8.x8.4-8.x8.13+9.x
Source code (Crawler)Closed sourceClosed sourceClosed sourceOpen-codeOpen-code
Deployment option (Crawler setup)Swiftype ServiceElastic Cloud Hosted, Elastic Cloud Enterprise, Elastic Cloud on Kubernetes and Self-managedElastic Cloud Hosted, Elastic Cloud Enterprise, Elastic Cloud on Kubernetes and Self-managedSelf-managedElastic Cloud Serverless, Elastic Cloud Hosted
Deployment option (Ingest destination)Swiftype ServiceElastic Cloud Hosted, Elastic Cloud Enterprise, Elastic Cloud on Kubernetes and Self-managedElastic Cloud Hosted, Elastic Cloud Enterprise, Elastic Cloud on Kubernetes and Self-managedElastic Cloud Serverless, Elastic Cloud Hosted, Elastic Cloud Enterprise, Elastic Cloud on Kubernetes and Self-managedElastic Cloud Serverless, Elastic Cloud Hosted, TBD
Deployment option (Index type)Swiftype managed indicesApp Search managed enginesEnterprise Search managed engines, Elasticsearch index engines and Standalone Elasticsearch indicesStandalone Elasticsearch indicesStandalone Elasticsearch indices
Vector embeddings pipelineNoNoYes (4)YesYes

Elastic Open Crawler 的优势

  • 轻量级、无状态且独立的命令行工具,与企业搜索分离。
  • 开放代码存储库
  • 统一许可模式。与 Elastic Connectors 类似,许可基于采集目的地。
  • 采集到 Elastic Cloud Serverless 或 Elastic Cloud Hosted 时为 Standard+。
  • 采集到 Elastic Cloud Enterprise (ECE)、Elastic Cloud on Kubernetes (ECK) 和 Self-Managed 时为 Platinum+。
  • 使用自定义索引映射和设置自带 Elasticsearch 索引。
  • 轻松整合 Elasticsearch 语义搜索工作流
  • 索引使用 Elasticsearch Bulk API,索引和搜索请求的数量已大幅减少,从而显著提高性能。
  • 使用 Docker 容器轻松在你自己的基础架构中运行。
  • 单一工具可将 Web 内容采集到所有 Elasticsearch 平台:Elastic Cloud Serverless、Elastic Cloud Hosted (ESS)、Elastic Cloud Enterprise (ECE)、Elastic Cloud on Kubernetes (ECK) 和 Self-Managed。

稍等一下,还有更多!

即将推出:Elastic Open Crawler 路线图

以下是 Elastic Open Crawler 路线图 (1) 上的功能 (1):

  • Elastic 托管爬虫
  • 易于管理的程序化故事
  • 事件日志记录
  • 使用元标记和数据属性的自定义字段提取
  • 完整 HTML 提取
  • 过渡工具 (2)

(1) 本文中的路线图信息具有前瞻性,代表了我们对 Elastic Open Crawler 的当前愿景。这些计划可能会根据我们的判断而更改。

(2) 此类工具将支持从 App Search Web Crawler 和 Elastic Web Crawler 过渡爬虫配置。用户需要使用 Elastic Open Crawler 重新抓取内容。

(3) 有关 Elastic Open Crawler 和 Elastic Web Crawler 之间的功能比较的更多详细信息可在此处获得。

(4) 虽然你可以创建自己的推理管道,但 App Search 引擎无法使用存储向量的字段。

开始使用 Elastic Open Crawler

开启你的网页 “荡网” 之旅 🕸️,请查看以下资源!

使用我们完全可定制的网络爬虫让你的搜索应用程序保持领先地位。有问题吗?加入我们的 Slack 工作区或讨论论坛,与我们的开发者社区建立联系。

祝你的 ELK 有一个快乐的小爬虫日!🎄

原文:Dec 12th, 2024: [EN] Swing through web content like a superhero - Advent Calendar - Discuss the Elastic Stack