Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a la Ciencia de Datos para el Análisis de Grandes Datos
- Visión general de la Ciencia de Datos
- Visión general de los Grandes Datos
- Estructuras de datos
- Motores y complejidades de los Grandes Datos
- Ecosistema de Grandes Datos y un nuevo enfoque para el análisis
- Tecnologías clave en los Grandes Datos
- Proceso y problemas de minería de datos
- Minería de patrones de asociación
- Agrupamiento de datos
- Detección de anomalías
- Clasificación de datos
Introducción al ciclo de vida del Análisis de Datos
- Descubrimiento
- Preparación de datos
- Planificación del modelo
- Construcción del modelo
- Presentación/Comunicación de resultados
- Puesta en operación
- Ejercicio: Estudio de caso
A partir de este punto, la mayor parte del tiempo de capacitación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con los grandes datos.
Comenzando con R
- Instalación de R y Rstudio
- Características del lenguaje R
- Objetos en R
- Datos en R
- Cuestiones relacionadas con los grandes datos
- Ejercicios
Comenzando con Hadoop
- Instalación de Hadoop
- Comprensión de los modos de Hadoop
- HDFS
- Arquitectura de MapReduce
- Visión general de proyectos relacionados con Hadoop
- Escribir programas en Hadoop MapReduce
- Ejercicios
Integración de R y Hadoop con RHadoop
- Componentes de RHadoop
- Instalación de RHadoop y conexión con Hadoop
- Arquitectura de RHadoop
- Streaming de Hadoop con R
- Solución de problemas de análisis de datos con RHadoop
- Ejercicios
Preprocesamiento y preparación de datos
- Pasos de preparación de datos
- Extracción de características
- Limpieza de datos
- Integración y transformación de datos
- Reducción de datos – muestreo, selección de subconjuntos de características,
- Reducción de dimensionalidad
- Discretización y binning
- Ejercicios y estudio de caso
Métodos exploratorios de análisis de datos en R
- Estadísticas descriptivas
- Análisis exploratorio de datos
- Visualización – pasos preliminares
- Visualización de una variable
- Examen de múltiples variables
- Métodos estadísticos para la evaluación
- Pruebas de hipótesis
- Ejercicios y estudio de caso
Visualizaciones de datos
- Visualizaciones básicas en R
- Paquetes para la visualización de datos ggplot2, lattice, plotly, lattice
- Formateo de gráficos en R
- Gráficos avanzados
- Ejercicios
Regresión (Estimación de valores futuros)
- Regresión lineal
- Casos de uso
- Descripción del modelo
- Diagnósticos
- Problemas con la regresión lineal
- Métodos de reducción, regresión de cresta, el lasso
- Generalizaciones y no linealidades
- Regresión splines
- Regresión polinomial local
- M Modelos aditivos generalizados
- Regresión con RHadoop
- Ejercicios y estudio de caso
Clasificación
- Problemas relacionados con la clasificación
- Repaso bayesiano
- Bayes ingenuo
- Regresión logística
- K-vecinos más cercanos
- Algoritmo de árboles de decisión
- Redes neuronales
- Máquinas de soporte vectorial
- Diagnóstico de clasificadores
- Comparación de métodos de clasificación
- Algoritmos escalables de clasificación
- Ejercicios y estudio de caso
Evaluación del rendimiento y selección de modelos
- Sesgo, varianza y complejidad del modelo
- Precision vs. interpretabilidad
- Evaluación de clasificadores
- Medidas de rendimiento del modelo/algoritmo
- Método de validación por retención
- Cross-validation
- Afinación de algoritmos de aprendizaje automático con el paquete caret
- Visualización del rendimiento del modelo con curvas Profit ROC y Lift
Métodos de ensamble
- Bagging
- Bosques aleatorios
- Boosting
- Boosting por gradiente
- Ejercicios y estudio de caso
Máquinas de soporte vectorial para clasificación y regresión
- Clasificadores de margen máximo
- Clasificadores de soporte vectorial
- Máquinas de soporte vectorial
- Máquinas de soporte vectorial para problemas de clasificación
- Máquinas de soporte vectorial para problemas de regresión
- Ejercicios y estudio de caso
Identificación de agrupamientos desconocidos en un conjunto de datos
- Selección de características para el agrupamiento
- Algoritmos basados en representantes: k-medias, k-medoides
- Algoritmos jerárquicos: métodos aglomerativos y divisivos
- Algoritmos probabilísticos: EM
- Algoritmos basados en densidad: DBSCAN, DENCLUE
- Validación de clusters
- Conceptos avanzados de agrupamiento
- Agrupamiento con RHadoop
- Ejercicios y estudio de caso
Descubrimiento de conexiones con el Análisis de Enlaces
- Conceptos de análisis de enlaces
- Métricas para analizar redes
- El algoritmo PageRank
- Búsqueda Temática Inducida por Hiperenlaces
- Predicción de enlaces
- Ejercicios y estudio de caso
Minería de Patrones de Asociación
- Modelo de minería de patrones frecuentes
- Cuestiones de escalabilidad en la minería de patrones frecuentes
- Algoritmos de fuerza bruta
- Algoritmo Apriori
- El enfoque FP growth
- Evaluación de reglas candidatas
- Aplicaciones de las reglas de asociación
- Validación y pruebas
- Diagnósticos
- Reglas de asociación con R y Hadoop
- Ejercicios y estudio de caso
Construcción de motores de recomendación
- Comprender los sistemas de recomendación
- Técnicas de minería de datos utilizadas en los sistemas de recomendación
- Sistemas de recomendación con el paquete recommenderlab
- Evaluación de los sistemas de recomendación
- Recomendaciones con RHadoop
- Ejercicio: Construcción de un motor de recomendación
Análisis de texto
- Pasos del análisis de texto
- Colección de texto sin procesar
- Bolsa de palabras
- Frecuencia de término – Inversa de la frecuencia del documento
- Determinación de sentimientos
- Ejercicios y estudio de caso
35 Horas
Testimonios (2)
Intensidad, materiales y experticia en formación, claridad, comunicación prestada con Alessandra Excel
Marija Hornis Dmitrovic - Marija Hornis
Curso - Data Science for Big Data Analytics
Traducción Automática
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Curso - Data Science for Big Data Analytics
Traducción Automática