Come creare il tuo primo DAG in Apache Airflow
Se ti stai chiedendo come creare un DAG in Apache Airflow, sei nel posto giusto. In questo articolo, ti guiderò passo passo nella creazione del tuo primo flusso di lavoro con Airflow. Imparerai a definire i task e le dipendenze, utilizzando Python, per automatizzare i tuoi processi.
Cos’è un DAG in Apache Airflow?
Un DAG (Directed Acyclic Graph) in Apache Airflow è un grafo che rappresenta un flusso di lavoro. Ogni nodo del grafo è un task e le frecce indicano l’ordine in cui questi task devono essere eseguiti. In parole semplici, un DAG definisce l’insieme di task e la loro dipendenza l’uno dall’altro.
Creare un DAG: requisiti
Per creare un DAG in Apache Airflow, avrai bisogno di:
- Un’installazione funzionante di Apache Airflow
- Python 3.6 o superiore
- Un editor di testo o un IDE, come VS Code o PyCharm
Scrivere il tuo primo DAG
Iniziamo a scrivere il nostro DAG. Apri il tuo editor di testo e crea un nuovo file Python, ad esempio primo_dag.py, nella directory dags di Airflow. Di seguito trovi un esempio di codice per creare un DAG semplice:
from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator
from datetime import datetime
# Definizione dei parametri di default per il DAG
default_args = {
'owner': 'airflow',
'start_date': datetime(2024, 11, 1),
}
# Creazione del DAG
dag = DAG('primo_dag', default_args=default_args, schedule_interval='@daily')
# Definizione dei task
start = DummyOperator(task_id='start', dag=dag)
end = DummyOperator(task_id='end', dag=dag)
# Definizione delle dipendenze tra i task
start >> end
Spiegazione del codice
Vediamo cosa fa questo codice:
- default_args: definisce i parametri di default per il DAG, come l’owner e la data di inizio.
- DAG: creiamo un DAG chiamato
primo_dag, che eseguirà i task ogni giorno (@daily). - DummyOperator: è un task fittizio che non fa nulla, utile per testare i DAG. Abbiamo creato due task:
starteend. - start >> end: questa sintassi definisce una dipendenza, dicendo che il task
startdeve essere eseguito prima diend.
Caricare il DAG in Apache Airflow
Una volta creato il file, salvalo nella cartella dags della tua installazione di Airflow. Il DAG verrà caricato automaticamente e sarà visibile nella tua interfaccia web di Airflow, all’indirizzo http://localhost:8080.
Avviare e monitorare il DAG
Una volta che il DAG è visibile nell’interfaccia web, puoi avviarlo manualmente o attendere che venga eseguito in base alla pianificazione definita. Puoi monitorare lo stato dei task, vedere i log e gestire eventuali errori direttamente dalla UI di Airflow.
Conclusione
Ora che sai come creare un DAG in Apache Airflow, sei pronto per creare flussi di lavoro più complessi, aggiungendo task reali come operazioni Bash, query SQL o script Python. Apache Airflow è uno strumento potente per l’automazione e l’orchestrazione dei processi.
Fonte: Documentazione ufficiale di Apache Airflow
Per altri tutorial, visita la sezione: Tutti gli articoli


