Temario del curso

Introducción a la Ciencia de Datos para el Análisis de Grandes Datos

  • Visión general de la Ciencia de Datos
  • Visión general de los Grandes Datos
  • Estructuras de datos
  • Motores y complejidades de los Grandes Datos
  • Ecosistema de Grandes Datos y un nuevo enfoque para el análisis
  • Tecnologías clave en los Grandes Datos
  • Proceso y problemas de minería de datos
    • Minería de patrones de asociación
    • Agrupamiento de datos
    • Detección de anomalías
    • Clasificación de datos

Introducción al ciclo de vida del Análisis de Datos

  • Descubrimiento
  • Preparación de datos
  • Planificación del modelo
  • Construcción del modelo
  • Presentación/Comunicación de resultados
  • Puesta en operación
  • Ejercicio: Estudio de caso

A partir de este punto, la mayor parte del tiempo de capacitación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con los grandes datos.

Comenzando con R

  • Instalación de R y Rstudio
  • Características del lenguaje R
  • Objetos en R
  • Datos en R
  • Cuestiones relacionadas con los grandes datos
  • Ejercicios

Comenzando con Hadoop

  • Instalación de Hadoop
  • Comprensión de los modos de Hadoop
  • HDFS
  • Arquitectura de MapReduce
  • Visión general de proyectos relacionados con Hadoop
  • Escribir programas en Hadoop MapReduce
  • Ejercicios

Integración de R y Hadoop con RHadoop

  • Componentes de RHadoop
  • Instalación de RHadoop y conexión con Hadoop
  • Arquitectura de RHadoop
  • Streaming de Hadoop con R
  • Solución de problemas de análisis de datos con RHadoop
  • Ejercicios

Preprocesamiento y preparación de datos

  • Pasos de preparación de datos
  • Extracción de características
  • Limpieza de datos
  • Integración y transformación de datos
  • Reducción de datos – muestreo, selección de subconjuntos de características,
  • Reducción de dimensionalidad
  • Discretización y binning
  • Ejercicios y estudio de caso

Métodos exploratorios de análisis de datos en R

  • Estadísticas descriptivas
  • Análisis exploratorio de datos
  • Visualización – pasos preliminares
  • Visualización de una variable
  • Examen de múltiples variables
  • Métodos estadísticos para la evaluación
  • Pruebas de hipótesis
  • Ejercicios y estudio de caso

Visualizaciones de datos

  • Visualizaciones básicas en R
  • Paquetes para la visualización de datos ggplot2, lattice, plotly, lattice
  • Formateo de gráficos en R
  • Gráficos avanzados
  • Ejercicios

Regresión (Estimación de valores futuros)

  • Regresión lineal
  • Casos de uso
  • Descripción del modelo
  • Diagnósticos
  • Problemas con la regresión lineal
  • Métodos de reducción, regresión de cresta, el lasso
  • Generalizaciones y no linealidades
  • Regresión splines
  • Regresión polinomial local
  • M Modelos aditivos generalizados
  • Regresión con RHadoop
  • Ejercicios y estudio de caso

Clasificación

  • Problemas relacionados con la clasificación
  • Repaso bayesiano
  • Bayes ingenuo
  • Regresión logística
  • K-vecinos más cercanos
  • Algoritmo de árboles de decisión
  • Redes neuronales
  • Máquinas de soporte vectorial
  • Diagnóstico de clasificadores
  • Comparación de métodos de clasificación
  • Algoritmos escalables de clasificación
  • Ejercicios y estudio de caso

Evaluación del rendimiento y selección de modelos

  • Sesgo, varianza y complejidad del modelo
  • Precision vs. interpretabilidad
  • Evaluación de clasificadores
  • Medidas de rendimiento del modelo/algoritmo
  • Método de validación por retención
  • Cross-validation
  • Afinación de algoritmos de aprendizaje automático con el paquete caret
  • Visualización del rendimiento del modelo con curvas Profit ROC y Lift

Métodos de ensamble

  • Bagging
  • Bosques aleatorios
  • Boosting
  • Boosting por gradiente
  • Ejercicios y estudio de caso

Máquinas de soporte vectorial para clasificación y regresión

  • Clasificadores de margen máximo
    • Clasificadores de soporte vectorial
    • Máquinas de soporte vectorial
    • Máquinas de soporte vectorial para problemas de clasificación
    • Máquinas de soporte vectorial para problemas de regresión
  • Ejercicios y estudio de caso

Identificación de agrupamientos desconocidos en un conjunto de datos

  • Selección de características para el agrupamiento
  • Algoritmos basados en representantes: k-medias, k-medoides
  • Algoritmos jerárquicos: métodos aglomerativos y divisivos
  • Algoritmos probabilísticos: EM
  • Algoritmos basados en densidad: DBSCAN, DENCLUE
  • Validación de clusters
  • Conceptos avanzados de agrupamiento
  • Agrupamiento con RHadoop
  • Ejercicios y estudio de caso

Descubrimiento de conexiones con el Análisis de Enlaces

  • Conceptos de análisis de enlaces
  • Métricas para analizar redes
  • El algoritmo PageRank
  • Búsqueda Temática Inducida por Hiperenlaces
  • Predicción de enlaces
  • Ejercicios y estudio de caso

Minería de Patrones de Asociación

  • Modelo de minería de patrones frecuentes
  • Cuestiones de escalabilidad en la minería de patrones frecuentes
  • Algoritmos de fuerza bruta
  • Algoritmo Apriori
  • El enfoque FP growth
  • Evaluación de reglas candidatas
  • Aplicaciones de las reglas de asociación
  • Validación y pruebas
  • Diagnósticos
  • Reglas de asociación con R y Hadoop
  • Ejercicios y estudio de caso

Construcción de motores de recomendación

  • Comprender los sistemas de recomendación
  • Técnicas de minería de datos utilizadas en los sistemas de recomendación
  • Sistemas de recomendación con el paquete recommenderlab
  • Evaluación de los sistemas de recomendación
  • Recomendaciones con RHadoop
  • Ejercicio: Construcción de un motor de recomendación

Análisis de texto

  • Pasos del análisis de texto
  • Colección de texto sin procesar
  • Bolsa de palabras
  • Frecuencia de término – Inversa de la frecuencia del documento
  • Determinación de sentimientos
  • Ejercicios y estudio de caso
 35 Horas

Número de participantes


Precio por Participante​

Testimonios (2)

Próximos cursos

Categorías Relacionadas