Programa del Curso
Introducción
- Introducción a las soluciones de Cloud Computing y Big Data
- Descripción general de las características y la arquitectura de Apache Hadoop
Configuración Hadoop
- Planificación de un Hadoop clúster (local, en la nube, etc.)
- Selección del sistema operativo y la distribución Hadoop
- Aprovisionamiento de recursos (hardware, red, etc.)
- Descarga e instalación del software
- Dimensionamiento del clúster para mayor flexibilidad
Trabajar con HDFS
- Descripción del Hadoop sistema de archivos distribuido (HDFS)
- Información general sobre la referencia de comandos de HDFS
- Acceso a HDFS
- Realización de operaciones básicas de archivos en HDFS
- Uso de S3 como complemento de HDFS
Descripción general de MapReduce
- Descripción del flujo de datos en el marco de MapReduce
- Mapear, barajar, ordenar y reducir
- Demostración: Cálculo de los mejores salarios
Trabajar con YARN
- Descripción de la gestión de recursos en Hadoop
- Trabajar con ResourceManager, NodeManager, Application Master
- Programación de trabajos en YARN
- Programación para un gran número de nodos y clústeres
- Demostración: Programación de trabajos
Integración Hadoop con Spark
- Configuración del almacenamiento para Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Descripción de los conjuntos de datos distribuidos resistentes (RDD)
- Creación de un RDD
- Implementación de transformaciones RDD
- Demostración: Implementación de un programa de búsqueda de texto para títulos de películas
Administración de un clúster Hadoop
- Monitoreo Hadoop
- Protección de un clúster Hadoop
- Adición y eliminación de nodos
- Ejecución de un banco de pruebas de rendimiento
- Ajuste de un clúster Hadoop para optimizar el rendimiento
- Planificación de copias de seguridad, recuperación y continuidad del negocio
- Garantizar la alta disponibilidad (HA)
Actualización y migración de un clúster Hadoop
- Evaluación de los requisitos de carga de trabajo
- Actualización Hadoop
- Pasar de las instalaciones a la nube y viceversa
- Recuperación de errores
Solución de problemas
Resumen y conclusión
Requerimientos
- Experiencia en administración de sistemas
- Experiencia con la línea de comandos Linux
- Comprensión de los conceptos de big data
Audiencia
- Administradores de sistemas
- Dbas
Testimonios (9)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
Curso - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
Un montón de ejemplos prácticos, diferentes formas de abordar un mismo problema, y a veces trucos no tan obvios de cómo mejorar la solución actual
Rafał - Nordea
Curso - Apache Spark MLlib
Traducción Automática
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Sufficient hands on, trainer is knowledgable
Chris Tan
Curso - A Practical Introduction to Stream Processing
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Compromiso y disposición para explicar temas secundarios.
Marek - Krajowy Rejestr Długów Biuro Informacji Gospodarczej S.A.
Curso - Apache Spark Fundamentals
Traducción Automática