Contacta con nosotros

Temario del curso

Diseñando una Arquitectura de AIOps Abierta

  • Descripción general de los componentes clave en pipelines de AIOps open source.
  • Flujo de datos desde la ingesta hasta las alertas.
  • Comparación de herramientas y estrategia de integración.

Recopilación y Agregación de Datos

  • Ingesta de datos series temporales con Prometheus.
  • Captura de logs con Logstash y Beats.
  • Normalización de datos para la correlación entre fuentes.

Construcción de Dashboards de Observabilidad

  • Visualización de métricas con Grafana.
  • Creación de dashboards en Kibana para análisis de logs.
  • Uso de consultas de Elasticsearch para extraer información operativa.

Detección de Anomalías y Predicción de Incidentes

  • Exportación de datos de observabilidad a pipelines en Python.
  • Entrenamiento de modelos de ML para detección de valores atípicos y pronóstico.
  • Despliegue de modelos para inferencia en vivo dentro de la pipeline de observabilidad.

Alertas y Automatización con Herramientas Open Source

  • Creación de reglas de alerta en Prometheus y configuración de enrutamiento en Alertmanager.
  • Disparo de scripts o flujos de trabajo API para respuestas automáticas.
  • Uso de herramientas open source de orquestación (por ejemplo, Ansible, Rundeck).

Consideraciones de Integración y Escalabilidad

  • Manejo de ingestas de alto volumen y retención a largo plazo.
  • Seguridad y control de acceso en pilas open source.
  • Escalamiento independiente de cada capa: ingesta, procesamiento y alertas.

Aplicaciones del Mundo Real y Extensiones

  • Estudios de caso: optimización del rendimiento, prevención de tiempos de inactividad y optimización de costos.
  • Extensión de pipelines con herramientas de trazabilidad o gráficos de servicios.
  • Mejores prácticas para ejecutar y mantener AIOps en producción.

Resumen y Próximos Pasos

Requerimientos

  • Experiencia con herramientas de observabilidad como Prometheus o ELK.
  • Conocimientos prácticos de Python y fundamentos de Machine Learning (ML).
  • Comprensión de las operaciones de TI y flujos de trabajo de alertas.

Audiencia Objetivo

  • Ingenieros avanzados de confiabilidad del sitio (SREs).
  • Ingenieros de datos que trabajan en operaciones.
  • Líderes de plataformas DevOps y arquitectos de infraestructura.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas