Temario del curso
Introducción
Comprensión Big Data
Descripción general de Spark
Descripción general de Python
Descripción general de PySpark
- Distribución de datos mediante el marco de conjuntos de datos distribuidos resistentes
- Distribución de cálculos mediante operadores de API de Spark
Configuración Python con Spark
Configuración PySpark
Uso de Amazon Web Services (AWS) instancias EC2 para Spark
Configuración Databricks
Configuración del clúster de AWS EMR
Aprender los conceptos básicos de Python Programming
- Primeros pasos con Python
- Uso de Jupyter Notebook
- Uso de variables y tipos de datos simples
- Trabajar con listas
- Uso de instrucciones if
- Uso de entradas de usuario
- Trabajar con bucles while
- Funciones de implementación
- Trabajar con clases
- Trabajar con archivos y excepciones
- Trabajar con proyectos, datos y API
Aprender los conceptos básicos de Spark DataFrame
- Introducción a Spark DataFrames
- Implementación de operaciones básicas con Spark
- Uso de operaciones Groupby y Aggregate
- Trabajar con marcas de tiempo y fechas
Trabajar en un ejercicio de proyecto de Spark DataFrame
Descripción Machine Learning con MLlib
Trabajar con MLlib, Spark y Python para Machine Learning
Descripción de las regresiones
- Aprendiendo la Teoría de la Regresión Lineal
- Implementación de un código de evaluación de regresión
- Trabajando en un ejemplo de ejercicio de regresión lineal
- Aprendizaje de la teoría de la regresión logística
- Implementación de un código de regresión logística
- Trabajando en un ejemplo de ejercicio de regresión logística
Comprensión de los Random Forest y los árboles de decisión
- Teoría de los Métodos del Árbol de Aprendizaje
- Árboles de decisión de ejecución y Random Forest códigos
- Trabajando en un ejemplo Random Forest de ejercicio de clasificación
Trabajar con K-means Clustering
- Comprensión de la teoría de agrupamiento de K-means
- Implementación de un código de agrupación en clústeres K-means
- Trabajar en un ejercicio de agrupación de muestras
Trabajar con sistemas de recomendación
Implementación del procesamiento del lenguaje natural
- Comprensión Natural Language Processing (NLP)
- Descripción general de las herramientas de NLP
- Trabajando en un ejemplo de ejercicio de PNL
Streaming con Spark en Python
- Visión general Streaming con Spark
- Ejemplo Spark Streaming de ejercicio
Palabras finales
Requerimientos
- Conocimientos generales de programación
Audiencia
- Desarrolladores
- Profesionales de TI
- Científicos de datos
Testimonios (6)
Me gustó que fuera práctico. Me encantó aplicar el conocimiento teórico con ejemplos prácticos.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
El curso trataba sobre una serie de temas muy complejos y relacionados, y Pablo tiene un conocimiento profundo de cada uno de ellos. En algunas ocasiones se perdían matices en la comunicación y/o debido a presión por el tiempo, lo que posiblemente no cumplió con las expectativas esperadas. Además, hubo algunos problemas de configuración de UHG/Azure Databricks, pero Pablo y UHG resolvieron estos rápidamente una vez que se hicieron evidentes. Esto me demostró un alto nivel de comprensión y profesionalismo entre UHG y Pablo.
Michael Monks - Tech NorthWest Skillnet
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
Atención individual.
ARCHANA ANILKUMAR - PPL
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
Formación Práctica..
Abraham Thomas - PPL
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
Las lecciones se impartieron en un cuaderno Jupyter. Los temas estaban estructurados con una secuencia lógica y naturalmente ayudaron a desarrollar la sesión desde las partes más sencillas hasta las más complejas. Ya soy un usuario avanzado de Python con antecedentes en Machine Learning, por lo que encontré el curso más fácil de seguir que, posiblemente, algunos de mis compañeros que tomaron el curso de formación. Aprecio que se saltaran algunos de los conceptos más elementales y se centraran en las cuestiones más sustanciales.
Angela DeLaMora - ADT, LLC
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
tareas de práctica
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática