Temario del curso

  1. Introducción a Scala

    • Una rápida introducción a Scala
    • Laboratorios: Conociendo Scala
  2. Conceptos Básicos de Spark

    • Antecedentes e historia
    • Spark y Hadoop
    • Conceptos y arquitectura de Spark
    • Ecosistema de Spark (núcleo, Spark SQL, MLlib, streaming)
    • Laboratorios: Instalación y ejecución de Spark
  3. Primer Vistazo a Spark

    • Ejecutando Spark en modo local
    • Interfaz web de Spark
    • Shell de Spark
    • Análisis de conjuntos de datos - parte 1
    • Inspección de RDDs
    • Laboratorios: Exploración del shell de Spark
  4. RDDs

    • Conceptos de RDDs
    • Particiones
    • Operaciones / transformaciones en RDDs
    • Tipos de RDDs
    • RDDs de pares clave-valor
    • MapReduce sobre RDDs
    • Caché y persistencia
    • Laboratorios: Creación e inspección de RDDs; Caché de RDDs
  5. Programación con la API de Spark

    • Introducción a la API de Spark / RDD API
    • Entrega del primer programa a Spark
    • Depuración / registro
    • Propiedades de configuración
    • Laboratorios: Programación con la API de Spark, entrega de trabajos
  6. Spark SQL

    • Soporte de SQL en Spark
    • Dataframes
    • Definición de tablas e importación de conjuntos de datos
    • Consulta de dataframes utilizando SQL
    • Formatos de almacenamiento: JSON / Parquet
    • Laboratorios: Creación y consulta de dataframes; evaluación de formatos de datos
  7. MLlib

    • Introducción a MLlib
    • Algoritmos de MLlib
    • Laboratorios: Escritura de aplicaciones MLib
  8. GraphX

    • Panorama de la biblioteca GraphX
    • APIs de GraphX
    • Laboratorios: Procesamiento de datos de grafos utilizando Spark
  9. Spark Streaming

    • Panorama del streaming
    • Evaluación de plataformas de streaming
    • Operaciones de streaming
    • Operaciones de ventana deslizante
    • Laboratorios: Escritura de aplicaciones de streaming con Spark
  10. Spark y Hadoop

    • Introducción a Hadoop (HDFS / YARN)
    • Arquitectura de Hadoop + Spark
    • Ejecución de Spark en Hadoop YARN
    • Procesamiento de archivos HDFS utilizando Spark
  11. Rendimiento y Ajuste de Spark

    • Variables de difusión
    • Acumuladores
    • Gestión de memoria y caché
  12. Operaciones de Spark

    • Despliegue de Spark en producción
    • Plantillas de despliegue de ejemplo
    • Configuraciones
    • Monitoreo
    • Solución de problemas

Requerimientos

REQUISITOS PREVIOS

familiaridad con el lenguaje Java / Scala / Python (nuestros laboratorios en Scala y Python) Comprensión básica del entorno de desarrollo de Linux (navegación por la línea de comandos / edición de archivos usando VI o nano)

 21 Horas

Número de participantes


Precio por Participante​

Testimonios (7)

Próximos cursos

Categorías Relacionadas