Inicio
Big Data Formación
Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

El big data es un conjunto de datos tan voluminoso y complejo que las aplicaciones tradicionales de procesamiento de datos son inadecuadas para manejarlos. Los desafíos del big data incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, las consultas, la actualización y la privacidad de la información.

Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Temario del curso

Introducción a la Ciencia de Datos para el Análisis de Big Data

Visión general de la Ciencia de Datos
Visión general del Big Data
Estructuras de datos
Motores y complejidades del Big Data
El ecosistema del Big Data y un nuevo enfoque para el análisis de datos
Tecnologías clave en el Big Data
Proceso y problemas de minería de datos
- Minería de patrones de asociación
- Agrupamiento de datos
- Detección de valores atípicos
- Clasificación de datos

Introducción al ciclo de vida del Análisis de Datos

Descubrimiento
Preparación de datos
Planificación del modelo
Construcción del modelo
Presentación/Comunicación de resultados
Operacionalización
Ejercicio: Estudio de caso

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con el big data.

Comenzando con R

Instalación de R y Rstudio
Características del lenguaje R
Objetos en R
Datos en R
Manipulación de datos
Cuestiones de big data
Ejercicios

Comenzando con Hadoop

Instalación de Hadoop
Comprensión de los modos de Hadoop
HDFS
Arquitectura MapReduce
Visión general de proyectos relacionados con Hadoop
Escribir programas en Hadoop MapReduce
Ejercicios

Integración de R y Hadoop con RHadoop

Componentes de RHadoop
Instalación de RHadoop y conexión con Hadoop
Arquitectura de RHadoop
Streaming de Hadoop con R
Solución de problemas de análisis de datos con RHadoop
Ejercicios

Preprocesamiento y preparación de datos

Pasos de preparación de datos
Extracción de características
Limpieza de datos
Integración y transformación de datos
Reducción de datos – muestreo, selección de subconjuntos de características
Reducción de dimensionalidad
Discretización y agrupamiento en bins
Ejercicios y estudio de caso

Métodos de análisis exploratorio de datos en R

Estadísticas descriptivas
Análisis exploratorio de datos
Visualización – pasos preliminares
Visualización de una variable
Examen de múltiples variables
Métodos estadísticos para la evaluación
Pruebas de hipótesis
Ejercicios y estudio de caso

Visualizaciones de datos

Visualizaciones básicas en R
Paquetería para la visualización de datos ggplot2, lattice, plotly, lattice
Diseño de gráficos en R
Gráficos avanzados
Ejercicios

Regresión (Estimación de valores futuros)

Regresión lineal
Casos de uso
Descripción del modelo
Diagnósticos
Problemas con la regresión lineal
Métodos de reducción, regresión ridge, el lasso
Generalizaciones y no linealidad
Regresiones splines
Regresión polinomial local
Modelos aditivos generalizados
Regresión con RHadoop
Ejercicios y estudio de caso

Clasificación

Problemas relacionados con la clasificación
Repaso bayesiano
Bayes ingenuo
Regresión logística
Vectores de características más cercanos (k-NN)
Algoritmo de árboles de decisión
Redes neuronales
Máquinas de soporte vectorial (SVM)
Diagnósticos de clasificadores
Comparación de métodos de clasificación
Algoritmos de clasificación escalables
Ejercicios y estudio de caso

Evaluación del rendimiento y selección del modelo

Sesgo, varianza y complejidad del modelo
Precisión frente a interpretabilidad
Evaluación de clasificadores
Medidas de rendimiento del modelo/algortimo
Método de validación de hold-out
Cross-validation
Afinación de algoritmos de aprendizaje automático con el paquete caret
Visualización del rendimiento del modelo con curvas ROC y Lift

Métodos de ensemble

Bolsa (Bagging)
Bosques aleatorios (Random Forests)
Impulso (Boosting)
Impulso gradiente (Gradient boosting)
Ejercicios y estudio de caso

Máquinas de soporte vectorial para clasificación y regresión

Clasificadores de margen máximo
- Clasificadores de soporte vectorial
- Máquinas de soporte vectorial (SVM)
- SVM para problemas de clasificación
- SVM para problemas de regresión
Ejercicios y estudio de caso

Identificación de agrupamientos desconocidos dentro de un conjunto de datos

Selección de características para el agrupamiento
Algoritmos basados en representantes: k-means, k-medoids
Algoritmos jerárquicos: métodos aglomerativos y divisivos
Algoritmos probabilísticos: EM
Algoritmos basados en densidad: DBSCAN, DENCLUE
Validación de clusters
Conceptos avanzados de agrupamiento
Agrupamiento con RHadoop
Ejercicios y estudio de caso

Descubrimiento de conexiones con el Análisis de Enlaces

Conceptos de análisis de enlaces
Métricas para analizar redes
El algoritmo PageRank
Búsqueda inducida por hipervínculos (HITS)
Predicción de enlaces
Ejercicios y estudio de caso

Minería de Patrones de Asociación

Modelo de minería de patrones frecuentes
Cuestiones de escalabilidad en la minería de patrones frecuentes
Algoritmos de fuerza bruta
Algoritmo Apriori
El enfoque FP growth
Evaluación de reglas candidatas
Aplicaciones de reglas de asociación
Validación y pruebas
Diagnósticos
Reglas de asociación con R y Hadoop
Ejercicios y estudio de caso

Construcción de motores de recomendación

Comprensión de los sistemas de recomendación
Técnicas de minería de datos utilizadas en los sistemas de recomendación
Sistemas de recomendación con el paquete recommenderlab
Evaluación de los sistemas de recomendación
Recomendaciones con RHadoop
Ejercicio: Construcción de un motor de recomendación

Análisis de texto

Pasos del análisis de texto
Recopilación de texto crudo
Bolsa de palabras
Frecuencia de término – Frecuencia inversa del documento (TF-IDF)
Determinación de sentimientos
Ejercicios y estudio de caso

35 Horas

Número de participantes

En línea

Presencial

Seleccione el lugar

Seleccione un lugar

Precio por participante

Los cursos públicos requieren más de 5 participantes.

Ciencia de Datos para Big Data Analytics - Reserva

Nombre completo *

Correo electrónico *

Teléfono *

Título Profesional

Nombre de la Empresa

Dirección 1 *

Ciudad *

Estado / Provincia

País *

Código Postal *

Fecha de Inicio

Identificación Fiscal

Las fechas están sujetas a disponibilidad y tendrán lugar entre 09:30 y 16:30.

Pago *

Transferencia Bancaria (Factura, OC)

Débito / Tarjeta de Crédito

Comentarios

Términos y Condiciones *

Soy un representante autorizado del cliente arriba mencionado y deseo reservar los cursos o servicios arriba mencionados de acuerdo con los Términos y Condiciones y la Política de Privacidad de NobleProg.

Informarme sobre descuentos y promociones

Por favor, lea nuestra Política de Privacidad para saber cómo utilizamos sus datos

Ciencia de Datos para Big Data Analytics - Consulta

Nombre completo *

Correo electrónico *

Teléfono *

Número de participantes

Nombre de la Empresa

Dirección de la Compañía

¿Cómo quiere hacer el curso?

Instalaciones del Cliente

En línea

Presencial

Comentarios

Informarme sobre descuentos y promociones

Por favor, lea nuestra Política de Privacidad para saber cómo utilizamos sus datos

Ciencia de Datos para Big Data Analytics - Solicitud de consultoría

Nombre completo *

Teléfono *

Correo electrónico *

Nombre de la Empresa

Asunto de la consulta *

Consulta sobre el Objetivo

¿Con quién va a trabajar el consultor?

Consulta Urgente *

Comentarios

Informarme sobre descuentos y promociones

Por favor, lea nuestra Política de Privacidad para saber cómo utilizamos sus datos

Testimonios (2)

Intensidad, Materiales de formación y experiencia, Claridad, Excelente comunicación con Alessandra

Marija Hornis Dmitrovic - Marija Hornis

Curso - Data Science for Big Data Analytics

Traducción Automática

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

Curso - Data Science for Big Data Analytics

13612 USD (En línea)

16112 USD (Presencial)

Cursos Relacionados

Anaconda Ecosistema para Científicos de Datos

14 Horas

Esta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a científicos de datos que desean utilizar el ecosistema Anaconda para capturar, administrar e implementar paquetes y flujos de trabajo de análisis de datos en una sola plataforma.

Al final de esta formación, los participantes serán capaces de:

Instale y configure Anaconda componentes y bibliotecas.
Comprender los conceptos básicos, las características y los beneficios de Anaconda.
Administre paquetes, entornos y canales con Anaconda Navigator.
Utilice los paquetes Conda, R y Python para la ciencia de datos y el aprendizaje automático.
Conozca algunos casos de uso prácticos y técnicas para la gestión de múltiples entornos de datos.

Análisis de Big Data con Google Colab y Apache Spark

14 Horas

Este entrenamiento en vivo dirigido por un instructor (en línea o presencial) está destinado a científicos de datos y ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de datos.

Al finalizar este entrenamiento, los participantes podrán:

Configurar un entorno de gran volumen de datos utilizando Google Colab y Spark.
Procesar y analizar conjuntos de datos grandes de manera eficiente con Apache Spark.
Visualizar grandes volúmenes de datos en un entorno colaborativo.
Integrar Apache Spark con herramientas basadas en la nube.

Análisis de Big Data en Salud

21 Horas

El análisis de big data implica el proceso de examinar grandes cantidades de conjuntos de datos variados para descubrir correlaciones, patrones ocultos y otros insights útiles.

La industria de la salud cuenta con enormes cantidades de datos médicos y clínicos complejos e heterogéneos. Aplicar técnicas de análisis de big data a los datos de salud presenta un gran potencial para derivar insights que mejoren la entrega de servicios de atención médica. Sin embargo, la inmensidad de estos conjuntos de datos plantea grandes desafíos en el análisis y las aplicaciones prácticas en un entorno clínico.

En este entrenamiento guiado por un instructor (remoto), los participantes aprenderán cómo realizar el análisis de big data en salud a través de una serie de ejercicios prácticos en vivo.

Al finalizar este entrenamiento, los participantes podrán:

Instalar y configurar herramientas de análisis de big data como Hadoop MapReduce y Spark
Comprender las características de los datos médicos
Aplicar técnicas de big data para manejar datos médicos
Estudiar sistemas y algoritmos de big data en el contexto de aplicaciones de salud

Audiencia

Desarrolladores
Científicos de Datos

Formato del Curso

Parte exposición, parte discusión, ejercicios y mucha práctica hands-on.

Nota

Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para arreglarlo.

Hadoop y Spark para Administradores

35 Horas

Esta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a administradores de sistemas que desean aprender a configurar, implementar y administrar Hadoop clústeres dentro de su organización.

Al final de esta formación, los participantes serán capaces de:

Instale y configure Apache Hadoop.
Comprenda los cuatro componentes principales del ecosistema Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
Utilice Hadoop Sistema de archivos distribuido (HDFS) para escalar un clúster a cientos o miles de nodos.
Configure HDFS para que funcione como motor de almacenamiento para implementaciones de Spark locales.
Configure Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3, y NoSQL sistemas de bases de datos como Redis, Elasticsearch, Couchbase, Aerospike, etc.
Lleve a cabo tareas administrativas como el aprovisionamiento, la gestión, la supervisión y la seguridad de un clúster Apache Hadoop.

Una introducción práctica al procesamiento de flujo

21 Horas

En este entrenamiento dirigido por un instructor en Argentina (presencial o remoto), los participantes aprenderán cómo configurar e integrar diferentes marcos de Procesamiento de Flujos con sistemas de almacenamiento de datos grandes y aplicaciones y microservicios relacionados existentes.

Al final de este entrenamiento, los participantes serán capaces de:

Instalar y configurar diferentes marcos de Procesamiento de Flujos, como Spark Streaming y Kafka Streaming.
Entender y seleccionar el marco más apropiado para el trabajo.
Procesar datos continuamente, concurrentemente y de forma individual.
Integrar soluciones de Procesamiento de Flujos con bases de datos existentes, almacenes de datos, lagos de datos, etc.
Integrar la biblioteca de procesamiento de flujos más apropiada con aplicaciones empresariales y microservicios.

Kaggle

14 Horas

Esta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a científicos de datos y desarrolladores que desean aprender y desarrollar sus carreras en Data Science utilizando Kaggle.

Al final de esta formación, los participantes serán capaces de:

Más información sobre la ciencia de datos y el aprendizaje automático.
Explora el análisis de datos.
Obtenga más información sobre Kaggle y cómo funciona.

Acelerando los Flujos de Trabajo de Python Pandas con Modin

14 Horas

Esta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a científicos de datos y desarrolladores que desean usar Modin para crear e implementar cálculos paralelos con Pandas para un análisis de datos más rápido.

Al final de esta formación, los participantes serán capaces de:

Configure el entorno necesario para comenzar a desarrollar Pandas flujos de trabajo a escala con Modin.
Comprender las características, la arquitectura y las ventajas de Modin.
Conoce las diferencias entre Modin, Dask y Ray.
Realice Pandas operaciones más rápido con Modin.
Implemente toda la API Pandas y las funciones.

PySpark y Aprendizaje Automático

21 Horas

Esta formación ofrece una introducción práctica a la creación de flujos de trabajo escalables de procesamiento de datos y aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo funciona Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.

Ciencia de Datos con GPU usando NVIDIA RAPIDS

14 Horas

Este curso de formación dirigido por un instructor en Argentina (en línea o presencial) está destinado a científicos de datos y desarrolladores que deseen utilizar RAPIDS para crear pipelines, flujos de trabajo y visualizaciones aceleradas por GPU, aplicando algoritmos de aprendizaje automático como XGBoost, cuML, etc.

Al final de este curso, los participantes podrán:

Configurar el entorno de desarrollo necesario para construir modelos de datos con NVIDIA RAPIDS.
Comprender las características, componentes y ventajas de RAPIDS.
Aprovechar GPUs para acelerar pipelines de datos y análisis de extremo a extremo.
Implementar la preparación de datos y ETL acelerados por GPU con cuDF y Apache Arrow.
Aprender a realizar tareas de aprendizaje automático con los algoritmos XGBoost y cuML.
Crear visualizaciones de datos y ejecutar análisis de grafos con cuXfilter y cuGraph.

SMACK Stack para Ciencia de Datos

14 Horas

Este curso de formación dirigido por un instructor en Argentina (en línea o presencial) está destinado a científicos de datos que deseen utilizar la pila SMACK para crear plataformas de procesamiento de datos para soluciones de big data.

Al finalizar este curso, los participantes serán capaces de:

Implementar una arquitectura de pipeline de datos para el procesamiento de big data.
Desarrollar una infraestructura en clúster con Apache Mesos y Docker.
Analizar datos con Spark y Scala.
Administrar datos no estructurados con Apache Cassandra.

Fundamentos de Apache Spark

21 Horas

Este curso de formación dirigido por un instructor en Argentina (en línea o presencial) está destinado a ingenieros que deseen configurar e implementar el sistema Apache Spark para procesar cantidades muy grandes de datos.

Al finalizar este curso, los participantes serán capaces de:

Instalar y configurar Apache Spark.
Procesar y analizar rápidamente conjuntos de datos muy grandes.
Comprender la diferencia entre Apache Spark y Hadoop MapReduce y cuándo utilizar cada uno.
Integrar Apache Spark con otras herramientas de aprendizaje automático.

Administración de Apache Spark

35 Horas

Esta formación en directo dirigida por un instructor en Argentina (en línea o in situ) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen implementar, mantener y optimizar clústeres de Spark.

Al final de esta capacitación, los participantes serán capaces de:

Instale y configure Apache Spark en varios entornos.
Administre los recursos del clúster y supervise las aplicaciones de Spark.
Optimice el rendimiento de los clústeres de Spark.
Implemente medidas de seguridad y garantice una alta disponibilidad.
Depurar y solucionar problemas comunes de Spark.

Apache Spark en la Nube

21 Horas

La curva de aprendizaje de Apache Spark aumenta lentamente al principio, y requiere mucho esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar la primera parte difícil. Después de completar este curso, los participantes entenderán los conceptos básicos de Apache Spark, diferenciarán claramente RDD de DataFrame, aprenderán las API de Python y Scala, comprenderán los ejecutores y tareas, etc. Además, siguiendo las mejores prácticas, este curso se centra fuertemente en la implementación en la nube, Databricks y AWS. Los estudiantes también entenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios más recientes de Spark de AWS.

AUDIENCIA:

Data Engineer, DevOps, Data Scientist

Python y Spark para Big Data (PySpark)

21 Horas

En esta capacitación en vivo dirigida por un instructor en Argentina, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.

Al final de esta formación, los participantes serán capaces de:

Aprenda a usar Spark con Python para analizar Big Data.
Trabaja en ejercicios que imiten casos del mundo real.
Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.

Stratio: Módulos Rocket e Intelligence con PySpark

14 Horas

Stratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.

Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.

Al finalizar este entrenamiento, los participantes podrán:

Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.

Formato del Curso

Conferencia interactiva y discusión.
Muchos ejercicios y práctica.
Implementación práctica en un entorno de laboratorio en vivo.

Opciones de Personalización del Curso

Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.

Ciencia de Datos para Big Data Analytics

Temario del curso

Introducción a la Ciencia de Datos para el Análisis de Big Data

Introducción al ciclo de vida del Análisis de Datos

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con el big data.

Comenzando con R

Comenzando con Hadoop

Integración de R y Hadoop con RHadoop

Preprocesamiento y preparación de datos

Métodos de análisis exploratorio de datos en R

Visualizaciones de datos

Regresión (Estimación de valores futuros)

Clasificación

Evaluación del rendimiento y selección del modelo

Métodos de ensemble

Máquinas de soporte vectorial para clasificación y regresión

Identificación de agrupamientos desconocidos dentro de un conjunto de datos

Descubrimiento de conexiones con el Análisis de Enlaces

Minería de Patrones de Asociación

Construcción de motores de recomendación

Análisis de texto

Testimonios (2)

Marija Hornis Dmitrovic - Marija Hornis

Curso - Data Science for Big Data Analytics

Teboho Makenete

Curso - Data Science for Big Data Analytics

Próximos cursos

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Categorías Relacionadas

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Ciencia de Datos para Big Data Analytics

Temario del curso

Introducción a la Ciencia de Datos para el Análisis de Big Data

Introducción al ciclo de vida del Análisis de Datos

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con el big data.

Comenzando con R

Comenzando con Hadoop

Integración de R y Hadoop con RHadoop

Preprocesamiento y preparación de datos

Métodos de análisis exploratorio de datos en R

Visualizaciones de datos

Regresión (Estimación de valores futuros)

Clasificación

Evaluación del rendimiento y selección del modelo

Métodos de ensemble

Máquinas de soporte vectorial para clasificación y regresión

Identificación de agrupamientos desconocidos dentro de un conjunto de datos

Descubrimiento de conexiones con el Análisis de Enlaces

Minería de Patrones de Asociación

Construcción de motores de recomendación

Análisis de texto

Testimonios (2)

Marija Hornis Dmitrovic - Marija Hornis

Curso - Data Science for Big Data Analytics

Teboho Makenete

Curso - Data Science for Big Data Analytics

Próximos cursos

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Cursos Relacionados

Anaconda Ecosistema para Científicos de Datos

Análisis de Big Data con Google Colab y Apache Spark

Análisis de Big Data en Salud

Hadoop y Spark para Administradores

Una introducción práctica al procesamiento de flujo

Kaggle

Acelerando los Flujos de Trabajo de Python Pandas con Modin

PySpark y Aprendizaje Automático

Ciencia de Datos con GPU usando NVIDIA RAPIDS

SMACK Stack para Ciencia de Datos

Fundamentos de Apache Spark

Administración de Apache Spark

Apache Spark en la Nube

Python y Spark para Big Data (PySpark)

Stratio: Módulos Rocket e Intelligence con PySpark

Categorías Relacionadas

Big Data

Ciencia de los datos

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites