Temario del curso

Introducción a Apache Airflow

  • ¿Qué es la orquestación de flujos de trabajo?
  • Características y beneficios clave de Apache Airflow
  • Mejoras en Airflow 2.x y visión general del ecosistema

Arquitectura y Conceptos Clave

  • Procesos de programador, servidor web y trabajadores
  • DAGs, tareas y operadores
  • Ejecutores y backends (Local, Celery, Kubernetes)

Instalación y Configuración

  • Instalar Airflow en entornos locales y en la nube
  • Configurar Airflow con diferentes ejecutores
  • Configurar bases de datos de metadatos y conexiones

Navegando por la UI y CLI de Airflow

  • Explorar la interfaz web de Airflow
  • Monitorear ejecuciones de DAGs, tareas y registros
  • Usar la CLI de Airflow para administración

Crear y Administrar DAGs

  • Crear DAGs con la API TaskFlow
  • Usar operadores, sensores y ganchos (hooks)
  • Gestionar dependencias e intervalos de programación

Integrar Airflow con Datos y Servicios en la Nube

  • Conectarse a bases de datos, APIs y colas de mensajes
  • Ejecutar pipelines ETL con Airflow
  • Integraciones en la nube: operadores AWS, GCP, Azure

Monitoreo y Observabilidad

  • Registros de tareas y monitoreo en tiempo real
  • Métricas con Prometheus y Grafana
  • Alertas y notificaciones con correo electrónico o Slack

Seguridad en Apache Airflow

  • Control de acceso basado en roles (RBAC)
  • Autenticación con LDAP, OAuth y SSO
  • Gestión de secretos con Vault y almacenes de secretos en la nube

Escalabilidad de Apache Airflow

  • Paralelismo, concurrencia y colas de tareas
  • Usar CeleryExecutor y KubernetesExecutor
  • Implementar Airflow en Kubernetes con Helm

Mejores Prácticas para Producción

  • Control de versiones y CI/CD para DAGs
  • Probar y depurar DAGs
  • Mantener fiabilidad y rendimiento a escala

Resolución de Problemas y Optimización

  • Depurar DAGs y tareas fallidas
  • Optimizar el rendimiento de los DAGs
  • Pitfalls comunes y cómo evitarlos

Resumen y Pasos Siguientes

Requerimientos

  • Experiencia con la programación en Python
  • Familiaridad con los conceptos de ingeniería de datos o DevOps
  • Comprensión de ETL o orquestación de flujos de trabajo

Audiencia

  • Científicos de datos
  • Ingenieros de datos
  • Ingenieros DevOps e infraestructura
  • Desarrolladores de software
 21 Horas

Número de participantes


Precio por Participante​

Testimonios (7)

Próximos cursos

Categorías Relacionadas