Programa del Curso
Introducción
- Introducción a las soluciones Cloud Computing y Big Data
- Descripción general de las características y la arquitectura de Apache Hadoop
Configuración Hadoop
- Planificación de un Hadoop clúster (local, en la nube, etc.)
- Selección del sistema operativo y la distribución Hadoop
- Aprovisionamiento de recursos (hardware, red, etc.)
- Descarga e instalación del software
- Dimensionamiento del clúster para mayor flexibilidad
Trabajar con HDFS
- Descripción del Hadoop sistema de archivos distribuido (HDFS)
- Información general sobre la referencia de comandos de HDFS
- Accessing HDFS
- Realización de operaciones básicas de archivos en HDFS
- Uso de S3 como complemento de HDFS
Descripción general de MapReduce
- Descripción del flujo de datos en el marco de MapReduce
- Mapear, barajar, ordenar y reducir
- Demostración: Computando los mejores salarios
Trabajar con YARN
- Descripción de la administración de recursos en Hadoop
- Trabajar con ResourceManager, NodeManager, Application Master
- Programación de trabajos en YARN
- Programación para un gran número de nodos y clústeres
- Demostración: Programación de trabajos
Integración Hadoop con Spark
- Configuración del almacenamiento para Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Descripción de los conjuntos de datos distribuidos resistentes (RDD)
- Creación de un RDD
- Implementación de transformaciones RDD
- Demostración: Implementación de un programa de búsqueda de texto para títulos de películas
Administración de un clúster Hadoop
- Monitoreo Hadoop
- Protección de un clúster Hadoop
- Adición y eliminación de nodos
- Ejecución de una prueba comparativa de rendimiento
- Ajuste de un clúster Hadoop para optimizar el rendimiento
- Planificación de copias de seguridad, recuperación y continuidad del negocio
- Garantizar la alta disponibilidad (HA)
Actualización y migración de un clúster Hadoop
- Evaluación de los requisitos de carga de trabajo
- Actualización Hadoop
- Pasar de las instalaciones a la nube y viceversa
- Recuperación de errores
Solución de problemas
Resumen y conclusión
Requerimientos
- Experiencia en administración de sistemas
- Experiencia con la línea de comandos Linux
- Comprensión de los conceptos de big data
Audiencia
- Administradores de sistemas
- Dbas
Testimonios (5)
Un montón de ejemplos prácticos, diferentes formas de abordar un mismo problema, y a veces trucos no tan obvios de cómo mejorar la solución actual
Rafal - Nordea
Curso - Apache Spark MLlib
Traducción Automática
muy interactivo...
Richard Langford
Curso - SMACK Stack for Data Science
Traducción Automática
Suficiente práctica, el instructor es conocedor
Chris Tan
Curso - A Practical Introduction to Stream Processing
Traducción Automática
Preparación y organización del formador, y calidad de los materiales proporcionados en GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Traducción Automática
Aprende sobre Spark Streaming, Databricks y AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curso - Apache Spark in the Cloud
Traducción Automática