JavaScript 中的 ES|QL:利用 Apache Arrow 工具

77 阅读5分钟

作者:来自 Elastic Jeffrey Rengifo

学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。

想获得 Elastic 认证吗?了解下一期 Elasticsearch Engineer 培训的时间吧!

Elasticsearch 拥有众多新功能,助你为自己的使用场景构建最佳搜索解决方案。深入了解我们的示例笔记本,开始免费的云试用,或立即在本地机器上体验 Elastic。


Elasticsearch 查询语言(ES|QL)是一种基于管道的新指令语言,旨在让用户以逐步的方式连接不同的操作。它是一种为数据分析优化的语言,并在一套新架构中运行,能够高效分析海量数据。

你可以在这篇文章文档中进一步了解 ES|QL。

ES|QL 查询支持构建多种格式的响应,例如 JSON、CSV、TSV、YAML、Arrow 和 binary。从 Elasticsearch 8.16 开始,Node.js 客户端中包含了一些处理这些格式的工具。

本文将介绍最新的工具: toArrowReadertoArrowTable,它们在 Elasticsearch Node.js 客户端中专门支持 Apache Arrow。更多关于工具的内容,请查看这篇文章

什么是 Apache Arrow?

Apache Arrow 是一种列式数据分析工具,使用与现代环境中各种编程语言无关的通用格式。

Arrow 格式的主要优点之一是其二进制列式结构经过优化,可实现非常快速的读取,从而支持高性能的分析计算。

来源: Format | Apache Arrow

阅读这篇文章,了解如何在 ES|QL 中利用 Arrow。

ES|QL Apache Arrow 工具

在示例中,我们将使用 Elastic 的 Web 日志示例数据集。你可以按照这份文档将其导入。

Elasticsearch 客户端

通过指定你的 Elasticsearch 端点 URL 和 API Key 来配置 Elasticsearch 客户端。

`

1.  const { Client } = require("@elastic/elasticsearch");

3.  const esClient = new Client({
4.    node: "ELASTICSEARCH_ENDPOINT",
5.    auth: { apiKey: "ELASTICSEARCH_API_KEY" },
6.  });

`AI写代码

toArrowReader

toArrowReader 工具用于优化内存使用,它不会一次性将整个结果集加载到内存中,而是以批次方式进行流式处理。这使得可以在不耗尽系统内存的情况下,对超大数据集执行计算。

这个工具允许你逐行处理数据:

``

1.  const q = `FROM kibana_sample_data_logs 
2.      | KEEP message, response, tags, @timestamp, ip, agent 
3.      | LIMIT 2 `;

5.  const reader = await esClient.helpers.esql({ query: q }).toArrowReader();

7.  const toArrowReaderResults = [];

9.  for await (const recordBatch of reader) {
10.    for (const record of recordBatch) {
11.      const recordData = record.toJSON();
12.      toArrowReaderResults.push(recordData);
13.    }
14.  }

16.  console.log(JSON.stringify(toArrowReaderResults, null, 2));
17.  /*
18.    RESULT: 
19.    [
20.      {
21.        "message": "49.167.60.184 - - [2018-09-16T09:10:01.825Z] \"GET /kibana/kibana-6.3.2-darwin-x86_64.tar.gz HTTP/1.1\" 200 2603 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
22.        "response": "200",
23.        "tags": [
24.          "error",
25.          "info"
26.        ],
27.        "@timestamp": 1749373801825,
28.        "ip": {
29.          "0": 49,
30.          "1": 167,
31.          "2": 60,
32.          "3": 184
33.        },
34.        "agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24"
35.      },
36.      {
37.        "message": "225.72.201.213 - - [2018-09-16T09:37:35.555Z] \"GET /elasticsearch/elasticsearch-6.3.2.zip HTTP/1.1\" 200 6335 \"-\" \"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)\"",
38.        "response": "200",
39.        "tags": [
40.          "success",
41.          "info"
42.        ],
43.        "@timestamp": 1749375455555,
44.        "ip": {
45.          "0": 225,
46.          "1": 72,
47.          "2": 201,
48.          "3": 213
49.        },
50.        "agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"
51.      }
52.    ]
53.  */

``AI写代码

toArrowTable

如果你希望在请求完成后一次性将所有结果加载到一个 Arrow 表对象中,而不是以流的方式逐行返回,可以使用 toArrowTable

当你的数据集可以轻松装入内存,同时又想利用 Arrow 的零拷贝读取和紧凑传输格式,并保持代码简洁时,这个工具就非常有用。

如果应用本身已经在处理 Arrow 数据,toArrowTable 也是一个不错的选择,因为你无需对数据进行序列化。此外,由于 Arrow 与编程语言无关,无论使用什么平台和语言,你都可以使用它。

``

1.  const q = `FROM kibana_sample_data_logs 
2.    | KEEP message, response, tags, @timestamp, ip, agent 
3.    | LIMIT 2 `;

5.  const toArrowTableResults = await esClient.helpers
6.    .esql({ query: q })
7.    .toArrowTable();

9.  const arrayTable = toArrowTableResults.toArray();

11.  console.log(JSON.stringify(arrayTable, null, 2));
12.  /*
13.     RESULT: 
14.     [
15.        {
16.          "message": "49.167.60.184 - - [2018-09-16T09:10:01.825Z] \"GET /kibana/kibana-6.3.2-darwin-x86_64.tar.gz HTTP/1.1\" 200 2603 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
17.          "response": "200",
18.          "tags": [
19.            "error",
20.            "info"
21.          ],
22.          "@timestamp": 1749373801825,
23.          "ip": {
24.            "0": 49,
25.            "1": 167,
26.            "2": 60,
27.            "3": 184
28.          },
29.          "agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24"
30.        },
31.        {
32.          "message": "225.72.201.213 - - [2018-09-16T09:37:35.555Z] \"GET /elasticsearch/elasticsearch-6.3.2.zip HTTP/1.1\" 200 6335 \"-\" \"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)\"",
33.          "response": "200",
34.          "tags": [
35.            "success",
36.            "info"
37.          ],
38.          "@timestamp": 1749375455555,
39.          "ip": {
40.            "0": 225,
41.            "1": 72,
42.            "2": 201,
43.            "3": 213
44.          },
45.          "agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"
46.        }
47.    ] 
48.  */

``AI写代码

总结

Elasticsearch Node.js 客户端提供的 Apache Arrow 工具有助于高效处理日常任务,例如分析大数据集,并以紧凑且与语言无关的格式接收 Elasticsearch 响应。

在本文中,我们学习了如何使用 ES|QL 客户端工具,将 Elasticsearch 响应解析为 Arrow Reader 或 Arrow Table。

原文:ES|QL in JavaScript: Leveraging Apache Arrow helpers - Elasticsearch Labs