Temario del curso
-
Introducción a Scala
- Una rápida introducción a Scala
- Laboratorios: Conociendo Scala
-
Conceptos Básicos de Spark
- Antecedentes e historia
- Spark y Hadoop
- Conceptos y arquitectura de Spark
- Ecosistema de Spark (núcleo, Spark SQL, MLlib, streaming)
- Laboratorios: Instalación y ejecución de Spark
-
Primer Vistazo a Spark
- Ejecutando Spark en modo local
- Interfaz web de Spark
- Shell de Spark
- Análisis de conjuntos de datos - parte 1
- Inspección de RDDs
- Laboratorios: Exploración del shell de Spark
-
RDDs
- Conceptos de RDDs
- Particiones
- Operaciones / transformaciones en RDDs
- Tipos de RDDs
- RDDs de pares clave-valor
- MapReduce sobre RDDs
- Caché y persistencia
- Laboratorios: Creación e inspección de RDDs; Caché de RDDs
-
Programación con la API de Spark
- Introducción a la API de Spark / RDD API
- Entrega del primer programa a Spark
- Depuración / registro
- Propiedades de configuración
- Laboratorios: Programación con la API de Spark, entrega de trabajos
-
Spark SQL
- Soporte de SQL en Spark
- Dataframes
- Definición de tablas e importación de conjuntos de datos
- Consulta de dataframes utilizando SQL
- Formatos de almacenamiento: JSON / Parquet
- Laboratorios: Creación y consulta de dataframes; evaluación de formatos de datos
-
MLlib
- Introducción a MLlib
- Algoritmos de MLlib
- Laboratorios: Escritura de aplicaciones MLib
-
GraphX
- Panorama de la biblioteca GraphX
- APIs de GraphX
- Laboratorios: Procesamiento de datos de grafos utilizando Spark
-
Spark Streaming
- Panorama del streaming
- Evaluación de plataformas de streaming
- Operaciones de streaming
- Operaciones de ventana deslizante
- Laboratorios: Escritura de aplicaciones de streaming con Spark
-
Spark y Hadoop
- Introducción a Hadoop (HDFS / YARN)
- Arquitectura de Hadoop + Spark
- Ejecución de Spark en Hadoop YARN
- Procesamiento de archivos HDFS utilizando Spark
-
Rendimiento y Ajuste de Spark
- Variables de difusión
- Acumuladores
- Gestión de memoria y caché
-
Operaciones de Spark
- Despliegue de Spark en producción
- Plantillas de despliegue de ejemplo
- Configuraciones
- Monitoreo
- Solución de problemas
Requerimientos
REQUISITOS PREVIOS
familiaridad con el lenguaje Java / Scala / Python (nuestros laboratorios en Scala y Python) Comprensión básica del entorno de desarrollo de Linux (navegación por la línea de comandos / edición de archivos usando VI o nano)
Testimonios (7)
La combinación de teoría y práctica con herramientas como databricks
Graciela Saud - Servicio de Impuestos Internos
Curso - Spark for Developers
Realizar ejercicios similares de diferentes maneras realmente ayuda a entender lo que cada componente (Hadoop/Spark, independiente/cluster) puede hacer por sí solo y en conjunto. Me dio ideas sobre cómo debería probar mi aplicación en mi máquina local cuando desarrollo versus cuando se implementa en un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curso - Spark for Developers
Traducción Automática
Ajay fue muy amistoso, servicial y también conocedor sobre el tema que estaba discutiendo.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curso - Spark for Developers
Traducción Automática
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curso - Spark for Developers
Traducción Automática
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curso - Spark for Developers
Traducción Automática
We know a lot more about the whole environment.
John Kidd
Curso - Spark for Developers
Traducción Automática
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curso - Spark for Developers
Traducción Automática