关于Apache Airflow的简介阅读时间： 4 分钟什么是Apache Airflow？ Airflow是一个以

什么是Apache Airflow？

Airflow是一个以编程方式编写、安排和监控工作流的平台。这些功能是通过任务的有向无环图（DAG）实现的。它是一个开源的，仍然处于孵化阶段。它于2014年在Airbnb的保护伞下初始化，从那时起，它在GitHub上有大约800个 贡献者和13000 颗星，获得了很好的声誉。Apache Airflow的主要功能是安排工作流、监控和编写。
Apache airflow是一个由Airbnb开发的工作流（数据管道）管理系统。它被200多家公司使用，如Airbnb、Yahoo、PayPal、Intel、Stripe等。
在这里面，一切都围绕着以有向无环图 （DAG）实现的工作流对象。例如，这样的工作流程可能涉及多个数据源的合并和随后分析脚本的执行。它负责调度任务，同时尊重其内部的依赖性，并协调相关的系统。

工作流是一个任务序列，它按计划启动或由一个事件触发。它经常被用来处理大数据处理管道。

Apache Airflow的架构

有四个主要组件组成了这个强大的、可扩展的工作流调度平台。

调度器：调度器监控所有的DAG和它们相关的任务。它定期检查活动任务的启动。
网络服务器：网络服务器是Airflow的用户接口。它显示任务的状态，并允许用户与数据库互动，从远程文件存储中读取日志文件，如谷歌云存储、微软Azure blobs等。
数据库：DAG及其相关任务的状态被保存在数据库中，以确保日程表能记住元数据信息。Airflow使用SQLAlchemy和对象关系映射（ORM）来连接到元数据数据库。调度器检查所有的DAG，并存储相关的信息，如调度间隔、每次运行的统计数据和任务实例。
执行器：有不同类型的执行器用于不同的使用情况。执行器的例子。
- SequentialExecutor:这个执行器可以在任何时候运行一个任务。它不能并行地运行任务。它在测试或调试的情况下很有帮助。
- LocalExecutor:这种执行器可以实现并行化和超线程化。它非常适用于在本地机器或单个节点上运行Airflow。
- CeleryExecutor:该执行器是运行分布式Airflow集群的最受欢迎的方式。
- KubernetesExecutor:该执行器调用Kubernetes API，为每个任务实例的运行制作临时荚。

Airflow在一定时期内对后台的所有DAG进行检查。这个周期是用processor_poll_interval 配置设置的，等于一秒钟。为需要执行的任务实例化，它们的状态在元数据数据库中被设置为SCHEDULED 。

日程表查询数据库，检索状态为SCHEDULED 的任务，并将其分配给执行者。然后，任务的状态变为QUEUED 。那些排队的任务被执行它们的工作者从队列中抽出。当这种情况发生时，任务的状态会变为RUNNING 。

当一个任务完成时，工作者会将其标记为失败或完成，然后调度员会更新元数据库中的最终状态。

在这篇文章中，我们讨论了Apache Airflow的基本概况。