AI时代的数据工程:必备技能

130 阅读7分钟

自主智能兴起,数据工程师需掌握流式数据技能以应对挑战。关键技能包括事件驱动架构设计、精确检索、反馈循环、管道扩展与保护,以及弥合语言差距。数据流式传输工程认证能有效提升相关能力。

译自:Data Engineering in the Age of AI: Skills To Master Now

作者:Adi Polak

Agentic AI(自主智能)不再是未来的概念。它正迅速成为真实世界生产系统的一部分。根据 Capgemini 2025 年的报告,随着生成式 AI (GenAI) 的早期采用者开始将自主智能体集成到业务运营中,预计到今年年底,自主智能 的采用率将增长 48%。

对于 数据工程师 而言,这种转变既带来了挑战,也带来了机遇。为报告提供支持或支持批量训练模型的传统管道已不再足够。下一代 AI 系统需要实时上下文和响应式管道,以支持跨分布式系统的自主决策。

您可能已经精通提取、转换、加载 (ETL) 调度、分析查询或机器学习 (ML) 集成。但是,您在多大程度上能够支持实时协作、学习和采取行动的智能体?

让我们探讨一下数据工程师必须培养的关键能力,以保持相关性和价值,以及提高这些能力的实用方法。掌握这些模式将使您在 AI 创新的中心地位保持不变,因为这个新时代正在展开。

数据工程师的两种典型起点路径

大多数数据工程师通过以下两种职业道路之一接触 流式传输和事件驱动设计

路径 1:数据库和批处理专家

许多人来自数据库管理或批处理 ETL 背景。您可能在编写 SQL、使用 Airflow 等工具调度工作流和生成每日报告方面拥有丰富的经验。但是,当数据必须连续流动、处理数百万个事件并为即时决策提供支持时,批处理思维通常会失效。

流式传输需要一种新的思维模式。您必须推断事件时间与处理时间,管理水印和窗口,并保证精确一次的语义,即使事情在中途发生变化。这些设计模式必须从一开始就构建到您的管道中。

路径 2:ML 和分析构建者

另一些人则从 ML 或分析领域入手,从事模型训练、特征存储或推理 API 的工作。但是,AI 智能体和检索增强生成 (RAG) 解决方案在陈旧的快照上无法很好地运行。它们依赖于最新的、经过良好调整的检索管道、向量搜索和混合搜索算法,这些算法仅向您的模型提供相关的事实。

在最近 QCon 的一次演讲中,我解释了弱检索如何破坏精度,导致大规模的幻觉和事实错误。许多团队低估了嵌入模型、混合重新排序和上下文分块从根本上来说是数据工程师可以解决的流式传输和检索问题。

成功使用 Agentic AI 的关键数据工程技能

Agentic AI 扩展了典型数据工程师的流式数据技能,因为它不再是关于单个模型独立运行。

如今,我们看到感知智能体、推理智能体和执行智能体协同工作,每个智能体处理任务并将见解实时传递给下一个智能体。如果您只知道如何调度批量 ETL 作业或部署推理服务器,那么您就缺少一项核心技能:如何构建高吞吐量、低延迟的管道,以保持这些智能体在生产中的可靠性和响应能力。

这些 agentic 系统需要一个事件驱动的流式传输骨干,以便在正确的时间将正确的信息提供给正确的智能体。流式传输成为保持自主智能体准确和同步的共享语言。

那么,您必须了解哪些流式传输模式才能成为每个人都希望在其 agentic AI 项目中拥有的数据流式传输工程师?

  • 设计事件驱动的架构: 构建 实时响应事件的管道,而不仅仅是隔夜运行。掌握发布-订阅模式、Kafka 主题和 Flink 流处理,以实现始终在线的决策。
  • 实现精确的检索: 了解向量搜索、混合重新排序和提示调整如何协同工作以提供基于事实的、上下文丰富的答案。这些是直接在您的管道中的流式传输和索引模式,而不仅仅是针对数据科学家。
  • 设计强大的反馈循环: 现代 AI 系统不断学习。构建数据管道来监控幻觉率、检查实体精度并发送更正以进行再训练,从而在推理和模型改进之间形成闭环。
  • 扩展和保护管道: 单个缓慢或损坏的流可能会导致多智能体系统中的级联故障。使用模式注册表,强制执行数据协定并应用精确一次的语义,以保持对流式传输基础设施的信任。
  • 弥合语言差距: 沟通提出了另一个挑战。数据科学家经常将“精度”作为数据工程师必须转化为现实的指标来讨论。实施评估分数,如事实一致性检查、实体精度比较和人工参与的审查管道。

通过数据流式传输工程认证来提升水平

数据流式传输工程师认证可以验证您使用 Kafka、Flink、模式注册表、连接器和实时最佳实践设计生产流式传输系统的能力。

掌握现代流式传输技能并获得认证可以帮助您应对批量工程师可能会忽略的挑战:

  • 抛弃旧习惯: 了解何时从批处理和微服务模式转变为真正的事件驱动思维。
  • 跨系统精确一次: 在 Kafka 和 Flink 等分布式工具中协调一致的状态,而没有隐藏的重复项。
  • 选择正确的时间: 了解事件时间与处理时间及其对正确性和延迟的影响。
  • 窗口和延迟: 设计可以优雅地处理延迟数据的滚动、滑动或会话窗口。
  • 正确完成流式传输连接: 管理孤立记录和“小狗收容所”,以使连接操作不会阻塞或丢失事件。
  • 源头的质量和治理: 将模式检查和验证向上游推送,以保护所有使用者。
  • 控制 AI 推理延迟: 将模型集成到管道中,而不会增加背压或用户延迟。

在此处了解有关 Confluent 的数据流式传输工程师认证的更多信息并验证您的流式传输专业知识 here

投资您的 AI 未来

如果您已经是数据工程师,那么您对于组织机构的 AI 计划至关重要。但是,智能系统无法在缓慢或过时的管道上蓬勃发展。

致力于掌握流式传输基础知识、事件驱动模式以及保持 AI 精确和基于事实的检索和反馈系统。这些不再是小众技能。它们定义了您在企业期望实时、可信 AI 的市场中的竞争优势。

未来属于在正确的时间提供正确数据的工程师。