Programa del Curso
- Introducción
- Hadoop Historia, Conceptos
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Hadoop Mitos
- Hadoop Desafíos (hardware / software)
- Labs: discute tus Big Data proyectos y problemas
- Planificación e instalación
- Selección de software, Hadoop distribuciones
- Dimensionamiento del clúster, planificación del crecimiento
- Selección de hardware y red
- Topología de bastidor
- Instalación
- Multi-tenencia
- Estructura de directorios, registros
- Evaluación comparativa
- Laboratorios: instalación de clústeres, ejecución de pruebas comparativas de rendimiento
- Operaciones de HDFS
- Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de racks)
- Nodos y demonios (NameNode, NameNode secundario, NameNode en espera de alta disponibilidad, DataNode)
- Supervisión de la salud
- Administración basada en explorador y línea de comandos
- Adición de almacenamiento, sustitución de unidades defectuosas
- Labs: familiarizarse con las líneas de comandos de HDFS
- Ingesta de datos
- Canal para la ingesta de registros y otros datos en HDFS
- Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de nuevo a SQL
- Hadoop Almacenamiento de datos con Hive
- Copia de datos entre clústeres (distcp)
- Uso de S3 como complemento de HDFS
- Prácticas recomendadas y arquitecturas de ingesta de datos
- Labs: configuración y uso de Flume, lo mismo para Sqoop
- Operaciones y administración de MapReduce
- Computación paralela antes de mapreduce: comparación de la administración de HPC con la de Hadoop
- MapReduce las cargas de clúster
- Nodos y demonios (JobTracker, TaskTracker)
- Recorrido por la interfaz de usuario de MapReduce
- Configuración de Mapreduce
- Configuración del trabajo
- Optimización de MapReduce
- RM infalible: qué decirle a tus programadores
- Labs: ejecución de ejemplos de MapReduce
- YARN: nueva arquitectura y nuevas capacidades
- Objetivos de diseño y arquitectura de implementación de YARN
- Nuevos actores: ResourceManager, NodeManager, Application Master
- Instalación de YARN
- Programación de trabajos en YARN
- Laboratorios: investigar la programación de trabajos
- Temas avanzados
- Monitoreo de hardware
- Supervisión de clústeres
- Agregar y eliminar servidores, actualizar Hadoop
- Planificación de copias de seguridad, recuperación y continuidad del negocio
- Flujos de trabajo de Oozie
- Hadoop alta disponibilidad (HA)
- Hadoop Federación
- Protección del clúster con Kerberos
- Laboratorios: configuración de la supervisión
- Pistas opcionales
- Cloudera Manager para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En este track, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5)
- Ambari para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del administrador de clústeres de Ambari y la plataforma de datos de Hortonworks (HDP 2.0)
Requerimientos
- Cómodo con la administración básica del sistema Linux
- Habilidades básicas de scripting
No se requieren conocimientos de Hadoop y Computación Distribuida, pero se introducirán y explicarán en el curso.
Entorno de laboratorio
Instalación cero: ¡No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop en funcionamiento para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
- un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
Testimonios (5)
Los ejemplos en vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Durante los ejercicios, James me explicó cada paso en detalle donde me estaba atascando. Yo era completamente nuevo en NIFI. Él explicó el propósito real de NIFI, incluso conceptos básicos como ser código abierto. Cubrió todos los conceptos de Nifi, desde nivel principiante hasta nivel desarrollador.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Traducción Automática
Preparación y organización del formador, y calidad de los materiales proporcionados en GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Traducción Automática
Que lo tuviera en primer lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Traducción Automática
cosas prácticas de hacer, también teoría fue bien servida por Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Traducción Automática