Vés al contingut

Apache Airflow

De la Viquipèdia, l'enciclopèdia lliure
Apache Airflow
Modifica el valor a Wikidata

Tipusplataforma de programació
Versió estable
2.8.2 (26 febrer 2024) Modifica el valor a Wikidata
LlicènciaLlicència Apache, versió 2.0
llicència Apache Modifica el valor a Wikidata
Característiques tècniques
Escrit enPython Modifica el valor a Wikidata
Equip
Desenvolupador(s)Apache Software Foundation Modifica el valor a Wikidata
Més informació
Lloc webairflow.apache.org (anglès) Modifica el valor a Wikidata
Stack ExchangeEtiqueta Modifica el valor a Wikidata

Apache Airflow és una plataforma de gestió de flux de treball de codi obert per a canalitzacions d'enginyeria de dades. Va començar a Airbnb l'octubre del 2014 [1] com una solució per gestionar els fluxos de treball cada cop més complexos de l'empresa. La creació d'Airflow va permetre a Airbnb crear i programar els seus fluxos de treball de manera programada i supervisar-los mitjançant la interfície d'usuari integrada de Airflow.[2][3] Des del principi, el projecte es va convertir en codi obert, convertint-se en un projecte Apache Incubator el març del 2016 i en un projecte d'Apache Software Foundation de primer nivell el gener de 2019.

Airflow està escrit en Python i els fluxos de treball es creen mitjançant scripts de Python. El flux d'aire està dissenyat sota el principi de "configuració com a codi". Tot i que existeixen altres plataformes de flux de treball de "configuració com a codi" que utilitzen llenguatges de marcatge com XML, l'ús de Python permet als desenvolupadors importar biblioteques i classes per ajudar-los a crear els seus fluxos de treball.

Visió general

[modifica]

Airflow utilitza gràfics acíclics dirigits (DAG) per gestionar l'orquestració del flux de treball. Les tasques i dependències es defineixen a Python i després Airflow gestiona la programació i l'execució. Els DAG es poden executar segons un programa definit (per exemple, cada hora o diari) o basant-se en activadors d'esdeveniments externs (per exemple, un fitxer que apareix a Hive [4]). Els programadors anteriors basats en DAG com Oozie i Azkaban acostumaven a confiar en diversos fitxers de configuració i arbres del sistema de fitxers per crear un DAG, mentre que a Airflow, els DAG sovint es poden escriure en un fitxer Python.[5]

Proveïdors gestionats

[modifica]

Tres proveïdors notables ofereixen serveis auxiliars al voltant del projecte bàsic de codi obert.

  • Astronomer ha creat una eina SaaS i una pila d'Airflow desplegable de Kubernetes que ajuda amb la supervisió, alertes, devops i gestió de clústers.
  • Cloud Composer és una versió gestionada d'Airflow que s'executa a Google Cloud Platform (GCP) i s'integra bé amb altres serveis de GCP.
  • Amazon Web Services ofereix fluxos de treball gestionats per a Apache Airflow a partir de novembre de 2020.

Referències

[modifica]
  1. «Apache Airflow» (en anglès). Apache Airflow. Arxivat de l'original el August 12, 2019. [Consulta: 30 setembre 2019].
  2. Beauchemin, Maxime. «Airflow: a workflow management platform» (en anglès). Medium, 02-06-2015. Arxivat de l'original el August 13, 2019. [Consulta: 30 setembre 2019].
  3. «Airflow» (en anglès). Arxivat de l'original el July 6, 2019. [Consulta: 30 setembre 2019].
  4. Trencseni, Marton. «Airflow review» (en anglès). BytePawn, 16-01-2016. Arxivat de l'original el February 28, 2019. [Consulta: 1r octubre 2019].
  5. «AirflowProposal» (en anglès). Apache Software Foundation, 28-03-2019. [Consulta: 1r octubre 2019].