Programa del Curso

Introducción

Comprensión de la arquitectura y los conceptos clave de Hadoop

Descripción del Hadoop sistema de archivos distribuido (HDFS)

    Visión general de HDFS y su diseño arquitectónico Interacción con HDFS Realización de operaciones básicas de archivos en HDFS Información general sobre la referencia de comandos de HDFS Descripción general de la mordedura de serpiente Instalación de Snakebite Uso de la biblioteca de cliente de Snakebite Uso del cliente CLI

Aprendizaje del modelo de programación MapReduce con Python

    Descripción general del modelo MapReduce Programming Descripción del flujo de datos en el marco de MapReduce Mapa Barajar y ordenar Reducir
Uso de la utilidad de transmisión Hadoop Comprender cómo funciona la utilidad de transmisión Hadoop
  • Demostración: Implementación de la aplicación WordCount en Python
  • Uso de la biblioteca mrjob Descripción general de mrjob
  • Instalación de mrjob
  • Demostración: Implementación del algoritmo WordCount usando mrjob
  • Comprender cómo funciona un trabajo de MapReduce escrito con la biblioteca mrjob
  • Ejecución de una aplicación MapReduce con mrjob
  • Práctico: Cálculo de los mejores salarios con mrjob
  • Aprendiendo Cerdo con Python
  • Descripción general de Pig Demostración: Implementación del algoritmo WordCount en Pig Configuración y ejecución de scripts pig e instrucciones pig Uso de los modos de ejecución de Pig Uso del modo interactivo Pig Uso del modo Pic Batch
  • Comprender los conceptos básicos de la lengua latina porcina Instrucciones de uso

      Carga de datos
    Transformación de datos
  • Almacenamiento de datos
  • Ampliación de la funcionalidad de Pig con Python UDF Registro de un archivo UDF Python
  • Demostración: Una UDF simple Python
  • Demostración: Manipulación de cadenas con Python UDF
  • Hands-on: Cálculo de las 10 películas más recientes con Python UDF
  • Uso de Spark y PySpark
  • Descripción general de Spark Demostración: Implementación del algoritmo WordCount en PySpark Información general sobre PySpark Uso de un shell interactivo Implementación de aplicaciones autónomas
  • Trabajar con conjuntos de datos distribuidos resistentes (RDD) Creación de RDD a partir de una colección Python
  • Creación de RDD a partir de archivos
  • Implementación de transformaciones RDD

      Implementación de acciones de RDD
    Práctico: Implementación de un programa de texto Search para títulos de películas con PySpark
  • Gestión del flujo de trabajo con Python
  • Descripción general de Apache Oozie y Luigi Instalación de Luigi Comprender los conceptos del flujo de trabajo de Luigi Tareas Objetivos Parámetros
  • Demostración: Examen de un flujo de trabajo que implementa el algoritmo WordCount
  • Trabajar con Hadoop flujos de trabajo que controlan los trabajos de MapReduce y Pig Uso de los archivos de configuración de Luigi
  • Trabajar con MapReduce en Luigi
  • Trabajar con Pig en Luigi
  • Resumen y conclusión

    Requerimientos

    • Experiencia con Python programación
    • Familiaridad básica con Hadoop
      28 horas
     

    Número de participantes


    Comienza

    Termina


    Dates are subject to availability and take place between 09:30 and 16:30.
    Los cursos de formación abiertos requieren más de 5 participantes.

    Testimonios (3)

    Cursos Relacionados

    Categorías Relacionadas