Apache Airflow
Tipus | plataforma de programació |
---|---|
Versió estable | |
Llicència | Llicència Apache, versió 2.0 llicència Apache |
Característiques tècniques | |
Escrit en | Python |
Equip | |
Desenvolupador(s) | Apache Software Foundation |
Més informació | |
Lloc web | airflow.apache.org (anglès) |
Stack Exchange | Etiqueta |
| |
Apache Airflow és una plataforma de gestió de flux de treball de codi obert per a canalitzacions d'enginyeria de dades. Va començar a Airbnb l'octubre del 2014 [1] com una solució per gestionar els fluxos de treball cada cop més complexos de l'empresa. La creació d'Airflow va permetre a Airbnb crear i programar els seus fluxos de treball de manera programada i supervisar-los mitjançant la interfície d'usuari integrada de Airflow.[2][3] Des del principi, el projecte es va convertir en codi obert, convertint-se en un projecte Apache Incubator el març del 2016 i en un projecte d'Apache Software Foundation de primer nivell el gener de 2019.
Airflow està escrit en Python i els fluxos de treball es creen mitjançant scripts de Python. El flux d'aire està dissenyat sota el principi de "configuració com a codi". Tot i que existeixen altres plataformes de flux de treball de "configuració com a codi" que utilitzen llenguatges de marcatge com XML, l'ús de Python permet als desenvolupadors importar biblioteques i classes per ajudar-los a crear els seus fluxos de treball.
Visió general
[modifica]Airflow utilitza gràfics acíclics dirigits (DAG) per gestionar l'orquestració del flux de treball. Les tasques i dependències es defineixen a Python i després Airflow gestiona la programació i l'execució. Els DAG es poden executar segons un programa definit (per exemple, cada hora o diari) o basant-se en activadors d'esdeveniments externs (per exemple, un fitxer que apareix a Hive [4]). Els programadors anteriors basats en DAG com Oozie i Azkaban acostumaven a confiar en diversos fitxers de configuració i arbres del sistema de fitxers per crear un DAG, mentre que a Airflow, els DAG sovint es poden escriure en un fitxer Python.[5]
Proveïdors gestionats
[modifica]Tres proveïdors notables ofereixen serveis auxiliars al voltant del projecte bàsic de codi obert.
- Astronomer ha creat una eina SaaS i una pila d'Airflow desplegable de Kubernetes que ajuda amb la supervisió, alertes, devops i gestió de clústers.
- Cloud Composer és una versió gestionada d'Airflow que s'executa a Google Cloud Platform (GCP) i s'integra bé amb altres serveis de GCP.
- Amazon Web Services ofereix fluxos de treball gestionats per a Apache Airflow a partir de novembre de 2020.
Referències
[modifica]- ↑ «Apache Airflow» (en anglès). Apache Airflow. Arxivat de l'original el August 12, 2019. [Consulta: 30 setembre 2019].
- ↑ Beauchemin, Maxime. «Airflow: a workflow management platform» (en anglès). Medium, 02-06-2015. Arxivat de l'original el August 13, 2019. [Consulta: 30 setembre 2019].
- ↑ «Airflow» (en anglès). Arxivat de l'original el July 6, 2019. [Consulta: 30 setembre 2019].
- ↑ Trencseni, Marton. «Airflow review» (en anglès). BytePawn, 16-01-2016. Arxivat de l'original el February 28, 2019. [Consulta: 1r octubre 2019].
- ↑ «AirflowProposal» (en anglès). Apache Software Foundation, 28-03-2019. [Consulta: 1r octubre 2019].