作者:来自 Elastic Jeffrey Rengifo
学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。
想获得 Elastic 认证吗?了解下一期 Elasticsearch Engineer 培训的时间吧!
Elasticsearch 拥有众多新功能,助你为自己的使用场景构建最佳搜索解决方案。深入了解我们的示例笔记本,开始免费的云试用,或立即在本地机器上体验 Elastic。
Elasticsearch 查询语言(ES|QL)是一种基于管道的新指令语言,旨在让用户以逐步的方式连接不同的操作。它是一种为数据分析优化的语言,并在一套新架构中运行,能够高效分析海量数据。
ES|QL 查询支持构建多种格式的响应,例如 JSON、CSV、TSV、YAML、Arrow 和 binary。从 Elasticsearch 8.16 开始,Node.js 客户端中包含了一些处理这些格式的工具。
本文将介绍最新的工具: toArrowReader 和 toArrowTable,它们在 Elasticsearch Node.js 客户端中专门支持 Apache Arrow。更多关于工具的内容,请查看这篇文章。
什么是 Apache Arrow?
Apache Arrow 是一种列式数据分析工具,使用与现代环境中各种编程语言无关的通用格式。
Arrow 格式的主要优点之一是其二进制列式结构经过优化,可实现非常快速的读取,从而支持高性能的分析计算。
阅读这篇文章,了解如何在 ES|QL 中利用 Arrow。
ES|QL Apache Arrow 工具
在示例中,我们将使用 Elastic 的 Web 日志示例数据集。你可以按照这份文档将其导入。
Elasticsearch 客户端
通过指定你的 Elasticsearch 端点 URL 和 API Key 来配置 Elasticsearch 客户端。
`
1. const { Client } = require("@elastic/elasticsearch");
3. const esClient = new Client({
4. node: "ELASTICSEARCH_ENDPOINT",
5. auth: { apiKey: "ELASTICSEARCH_API_KEY" },
6. });
`AI写代码
toArrowReader
toArrowReader 工具用于优化内存使用,它不会一次性将整个结果集加载到内存中,而是以批次方式进行流式处理。这使得可以在不耗尽系统内存的情况下,对超大数据集执行计算。
这个工具允许你逐行处理数据:
``
1. const q = `FROM kibana_sample_data_logs
2. | KEEP message, response, tags, @timestamp, ip, agent
3. | LIMIT 2 `;
5. const reader = await esClient.helpers.esql({ query: q }).toArrowReader();
7. const toArrowReaderResults = [];
9. for await (const recordBatch of reader) {
10. for (const record of recordBatch) {
11. const recordData = record.toJSON();
12. toArrowReaderResults.push(recordData);
13. }
14. }
16. console.log(JSON.stringify(toArrowReaderResults, null, 2));
17. /*
18. RESULT:
19. [
20. {
21. "message": "49.167.60.184 - - [2018-09-16T09:10:01.825Z] \"GET /kibana/kibana-6.3.2-darwin-x86_64.tar.gz HTTP/1.1\" 200 2603 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
22. "response": "200",
23. "tags": [
24. "error",
25. "info"
26. ],
27. "@timestamp": 1749373801825,
28. "ip": {
29. "0": 49,
30. "1": 167,
31. "2": 60,
32. "3": 184
33. },
34. "agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24"
35. },
36. {
37. "message": "225.72.201.213 - - [2018-09-16T09:37:35.555Z] \"GET /elasticsearch/elasticsearch-6.3.2.zip HTTP/1.1\" 200 6335 \"-\" \"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)\"",
38. "response": "200",
39. "tags": [
40. "success",
41. "info"
42. ],
43. "@timestamp": 1749375455555,
44. "ip": {
45. "0": 225,
46. "1": 72,
47. "2": 201,
48. "3": 213
49. },
50. "agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"
51. }
52. ]
53. */
``AI写代码
toArrowTable
如果你希望在请求完成后一次性将所有结果加载到一个 Arrow 表对象中,而不是以流的方式逐行返回,可以使用 toArrowTable。
当你的数据集可以轻松装入内存,同时又想利用 Arrow 的零拷贝读取和紧凑传输格式,并保持代码简洁时,这个工具就非常有用。
如果应用本身已经在处理 Arrow 数据,toArrowTable 也是一个不错的选择,因为你无需对数据进行序列化。此外,由于 Arrow 与编程语言无关,无论使用什么平台和语言,你都可以使用它。
``
1. const q = `FROM kibana_sample_data_logs
2. | KEEP message, response, tags, @timestamp, ip, agent
3. | LIMIT 2 `;
5. const toArrowTableResults = await esClient.helpers
6. .esql({ query: q })
7. .toArrowTable();
9. const arrayTable = toArrowTableResults.toArray();
11. console.log(JSON.stringify(arrayTable, null, 2));
12. /*
13. RESULT:
14. [
15. {
16. "message": "49.167.60.184 - - [2018-09-16T09:10:01.825Z] \"GET /kibana/kibana-6.3.2-darwin-x86_64.tar.gz HTTP/1.1\" 200 2603 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
17. "response": "200",
18. "tags": [
19. "error",
20. "info"
21. ],
22. "@timestamp": 1749373801825,
23. "ip": {
24. "0": 49,
25. "1": 167,
26. "2": 60,
27. "3": 184
28. },
29. "agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24"
30. },
31. {
32. "message": "225.72.201.213 - - [2018-09-16T09:37:35.555Z] \"GET /elasticsearch/elasticsearch-6.3.2.zip HTTP/1.1\" 200 6335 \"-\" \"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)\"",
33. "response": "200",
34. "tags": [
35. "success",
36. "info"
37. ],
38. "@timestamp": 1749375455555,
39. "ip": {
40. "0": 225,
41. "1": 72,
42. "2": 201,
43. "3": 213
44. },
45. "agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"
46. }
47. ]
48. */
``AI写代码
总结
Elasticsearch Node.js 客户端提供的 Apache Arrow 工具有助于高效处理日常任务,例如分析大数据集,并以紧凑且与语言无关的格式接收 Elasticsearch 响应。
在本文中,我们学习了如何使用 ES|QL 客户端工具,将 Elasticsearch 响应解析为 Arrow Reader 或 Arrow Table。
原文:ES|QL in JavaScript: Leveraging Apache Arrow helpers - Elasticsearch Labs