Programa del Curso
Sección 1: Introducción a Hadoop
- Historia y conceptos de Hadoop
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Mitologías sobre Hadoop
- Desafíos de Hadoop
- Hardware / Software
- lab : primera mirada a Hadoop
Sección 2: HDFS
- Diseño y arquitectura
- Conceptos (escalado horizontal, replicación, localidad de datos, conciencia del rack)
- Daemons : Namenode, Secondary namenode, Data node
- Comunicaciones / latidos cardíacos
- Integridad de los datos
- Rutas de lectura y escritura
- Namenode Alta Disponibilidad (HA), Federación
- labs : Interacción con HDFS
Sección 3: Mapa Reducir
- Conceptos y arquitectura
- Daemons (MRV1): jobtracker / tasktracker
- Fases: driver, mapper, shuffle / sort, reductor
- Mapa Reduzca Versión 1 y Versión 2 (YARN)
- Internos del Mapa Reducir
- Introducción a Java Map Reduce el programa
- Laboratorios: Ejecutar un programa MapReduce de ejemplo
Sección 4: Cerdo
- Cerdo vs java mapa reducir
- Flujo de trabajo porcino
- Lengua latina del cerdo
- ETL con cerdo
- Transformations & Joins
- Funciones definidas por el usuario (UDF)
- Laboratorios: escribir scripts Pig para analizar datos
Sección 5: Colmena
- Arquitectura y diseño
- tipos de datos
- Soporte SQL en Hive
- Creación de tablas Hive y consultas
- Particiones
- Se une
- Procesamiento de texto
- Laboratorios: varios laboratorios sobre procesamiento de datos con Hive
Sección 6: HBase
- Conceptos y arquitectura
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Datos de series temporales en HBase
- Diseño del esquema
- labs : Interacción con HBase usando shell; programación en HBase Java API ; Ejercicio de diseño de esquemas
Requerimientos
- Cómodo con el lenguaje de programación de Java (la mayoría de los ejercicios de programación están en java)
- Cómodo en el ambiente de Linux (ser capaz de navegar por la línea de comandos de Linux, editar archivos utilizando vi / nano)
Entorno de laboratorio
Instalación cero : No es necesario instalar el software Hadoop en las máquinas de los estudiantes. Se proporcionará un clúster funcional de Hadoop para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, se recomienda Putty para Windows)
- un navegador para acceder al clúster, se recomienda Firefox
Testimonios (5)
Los ejemplos en vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Durante los ejercicios, James me explicó cada paso en detalle donde me estaba atascando. Yo era completamente nuevo en NIFI. Él explicó el propósito real de NIFI, incluso conceptos básicos como ser código abierto. Cubrió todos los conceptos de Nifi, desde nivel principiante hasta nivel desarrollador.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Traducción Automática
Preparación y organización del formador, y calidad de los materiales proporcionados en GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Traducción Automática
Que lo tuviera en primer lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Traducción Automática
cosas prácticas de hacer, también teoría fue bien servida por Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Traducción Automática