Curso de SMACK Stack for Data Science
SMACK es una colección de software de plataforma de datos, es decir Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, y Apache Kafka. Utilizando el paquete SMACK, los usuarios pueden crear y escalar plataformas de procesamiento de datos.
Este entrenamiento guiado por instructores, en vivo (online o on-site) está dirigido a científicos de datos que desean utilizar el SMACK stack para construir plataformas de procesamiento de datos para soluciones de datos grandes.
Al final de este curso, los participantes podrán:
- Implementar una arquitectura de pipeline de datos para el procesamiento de datos grandes.
- Desarrollar una infraestructura de cluster con Apache Mesos y Docker.
- Analizar los datos con Spark y Scala.
- Gestión de datos no estructurados con Apache Cassandra.
Formato del curso
- Lecciones y discusiones interactivas.
- Muchos ejercicios y prácticas.
- Implementación de manos en un entorno de laboratorio en vivo.
Opciones de Customización de Curso
- Para solicitar una formación personalizada para este curso, por favor contacta con nosotros para organizar.
Programa del Curso
Introducción
Descripción general de SMACK Stack
- ¿Qué es Apache Spark? Características de Apache Spark
- ¿Qué es Apache Mesos? Características de Apache Mesos
- ¿Qué es Apache Akka? Características de Apache Akka
- ¿Qué es Apache Cassandra? Características de Apache Cassandra
- ¿Qué es Apache Kafka? Características de Apache Kafka
Scala Idioma
- Scala Sintaxis y estructura
- Scala Flujo de control
Preparación del entorno de desarrollo
- Instalación y configuración de la pila SMACK
- Instalación y configuración Docker
Apache Akka
- Uso de actores
Apache Cassandra
- Creación de una base de datos para operaciones de lectura
- Trabajar con copias de seguridad y recuperación
Conectores
- Creación de una secuencia
- Creación de una aplicación Akka
- Almacenamiento de datos con Cassandra
- Revisión de conectores
Apache Kafka
- Trabajar con clústeres
- Creación, publicación y consumo de mensajes
Apache Mesos
- Asignación de recursos
- Ejecución de clústeres
- Trabajar con Apache Aurora y Docker
- Ejecución de servicios y trabajos
- Implementación de Spark, Cassandra y Kafka en Mesos
Apache Spark
- Administración de flujos de datos
- Trabajar con RDD y tramas de datos
- Realización de análisis de datos
Solución de problemas
- Manejo de fallas de servicios y errores
Resumen y conclusión
Requerimientos
- Comprensión de los sistemas de procesamiento de datos
Audiencia
- Científicos de datos
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de SMACK Stack for Data Science - Booking
Curso de SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Consultas
Consultas
Testimonios (1)
muy interactivo...
Richard Langford
Curso - SMACK Stack for Data Science
Traducción Automática
Próximos cursos
Cursos Relacionados
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 HorasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Anaconda Ecosystem for Data Scientists
14 HorasEsta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a científicos de datos que desean utilizar el ecosistema Anaconda para capturar, administrar e implementar paquetes y flujos de trabajo de análisis de datos en una sola plataforma.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Anaconda componentes y bibliotecas.
- Comprender los conceptos básicos, las características y los beneficios de Anaconda.
- Administre paquetes, entornos y canales con Anaconda Navigator.
- Utilice los paquetes Conda, R y Python para la ciencia de datos y el aprendizaje automático.
- Conozca algunos casos de uso prácticos y técnicas para la gestión de múltiples entornos de datos.
Inteligencia de Negocios Big Data para Proveedores de Servicios de Comunicaciones y Telecomunicaciones
35 HorasVisión general
Los proveedores de servicios (CSP) se enfrentan a la presión de reducir los costes y maximizar los ingresos medios por usuario (ARPU), al tiempo que garantizan una excelente experiencia al cliente, pero los volúmenes de datos siguen creciendo. El tráfico global de datos móviles crecerá a una tasa de crecimiento anual compuesta (CAGR) del 78 por ciento hasta 2016, alcanzando los 10,8 exabytes por mes.
Mientras tanto, los CSP están generando grandes volúmenes de datos, incluidos los registros detallados de llamadas (CDR), los datos de red y los datos de los clientes. Las empresas que explotan al máximo estos datos obtienen una ventaja competitiva. Según una encuesta reciente de The Economist Intelligence Unit, las empresas que utilizan la toma de decisiones dirigida por datos disfrutan de un aumento del 5-6% en la productividad. Sin embargo, el 53% de las empresas aprovechan solo la mitad de sus valiosos datos, y una cuarta parte de los encuestados señaló que grandes cantidades de datos útiles no se explotan. Los volúmenes de datos son tan altos que el análisis manual es imposible, y la mayoría de los sistemas de software heredados no pueden seguir el ritmo, lo que hace que los datos valiosos se descarten o se ignoren.
Con el software de big data escalable y de alta velocidad de Big Data & Analytics, los CSP pueden extraer todos sus datos para una mejor toma de decisiones en menos tiempo. Los diferentes productos y técnicas de Big Data proporcionan una plataforma de software de extremo a extremo para recopilar, preparar, analizar y presentar información a partir de Big Data. Las áreas de aplicación incluyen el monitoreo del rendimiento de la red, la detección de fraudes, la detección de pérdida de clientes y el análisis de riesgo crediticio. Los productos de Big Data y Analytics se escalan para manejar terabytes de datos, pero la implementación de tales herramientas necesita un nuevo tipo de sistema de base de datos basado en la nube como Hadoop o un procesador de computación paralela a escala masiva (KPU, etc.)
Este curso sobre Big Data BI para telecomunicaciones cubre todas las nuevas áreas emergentes en las que los CSP están invirtiendo para aumentar la productividad y abrir nuevas fuentes de ingresos comerciales. El curso proporcionará una visión completa de 360 grados de Big Data BI en Telco para que los responsables de la toma de decisiones y los gerentes puedan tener una visión general muy amplia y completa de las posibilidades de Big Data BI en Telco para la productividad y el aumento de ingresos.
Objetivos del curso
El objetivo principal del curso es introducir nuevas técnicas de inteligencia de negocio Big Data en 4 sectores de Telecom Negocio (Marketing/Ventas, Operación de Red, Operación Financiera y Gestión de Relaciones con el Cliente). A los estudiantes se les presentará lo siguiente:
- Introducción al Big Data: qué son las 4V (volumen, velocidad, variedad y veracidad) en Big Data: generación, extracción y gestión desde la perspectiva de las telecomunicaciones
- En qué se diferencia el análisis de Big Data del análisis de datos heredado
- Justificación interna de la perspectiva Big Data -Telco
- Introducción al ecosistema de Hadoop: familiaridad con todas las herramientas de Hadoop como Hive, Pig, SPARC: cuándo y cómo se utilizan para resolver problemas de Big Data.
- Cómo se extrae Big Data para analizarlo para la herramienta de análisis: cómo los análisis de negocios pueden reducir sus puntos débiles de recopilación y análisis de datos a través del enfoque integrado del panel de control de Hadoop
- Introducción básica de la analítica de Insight, la analítica de visualización y la analítica predictiva para las empresas de telecomunicaciones
- Análisis de pérdida de clientes y Big Data: cómo el análisis de Big Data puede reducir la pérdida de clientes y la insatisfacción de los clientes en los estudios de casos de telecomunicaciones
- Análisis de fallos de red y fallos de servicio a partir de metadatos de red e IPDR
- Análisis financiero: estimación de fraude, desperdicio y ROI a partir de datos operativos y de ventas
- Problema de adquisición de clientes: marketing objetivo, segmentación de clientes y venta cruzada a partir de datos de ventas
- Introducción y resumen de todos los productos analíticos de Big Data y dónde encajan en el espacio analítico de las telecomunicaciones
- Conclusión: cómo adoptar un enfoque paso a paso para introducir Big Data Business Intelligence en su organización
Público objetivo
- Operación de redes, gerentes financieros, gerentes de CRM y altos gerentes de TI en la oficina de CIO de telecomunicaciones.
- Business Analistas de telecomunicaciones
- Gerentes/analistas de la oficina del CFO
- Gerentes de operaciones
- Gerentes de control de calidad
Data Science Programme
245 HorasLa explosión de información y datos en el mundo actual no tiene paralelo, nuestra capacidad para innovar y ampliar los límites de lo posible está creciendo más rápido que nunca. El rol de científico de datos es una de las habilidades más demandadas en la industria actual.
Ofrecemos mucho más que aprender a través de la teoría; brindamos habilidades prácticas y comercializables que cierran la brecha entre el mundo académico y las demandas de la industria.
Este plan de estudios de 7 semanas se puede adaptar a los requisitos específicos de su industria, contáctenos para obtener más información o visite el sitio web del Instituto Nobleprog
Audiencia:
Este programa está dirigido a graduados de posgrado, así como a cualquier persona con los requisitos previos requeridos que se determinarán mediante una evaluación y una entrevista.
Entrega:
La entrega del curso será una mezcla de Instructor Ded Classroom y Instructor Led Online; por lo general, la primera semana será 'aula dirigida', las semanas 2 a 6 'aula virtual' y la semana 7 de vuelta a 'aula dirigida'.
Ciencia de Datos para Big Data Analytics
35 HorasBig data son conjuntos de datos que son tan voluminosos y complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Los grandes desafíos de datos incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, la consulta, la actualización y la privacidad de la información.
Introducción a Graph Computing
28 HorasEn esta capacitación en vivo dirigida por un instructor en Argentina, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como análisis de grafos). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta formación, los participantes serán capaces de:
- Comprenda cómo se conservan y atraviesan los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Jupyter para Equipos de Ciencia de Datos
7 HorasEsta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) presenta la idea del desarrollo colaborativo en ciencia de datos y demuestra cómo usar Jupyter para rastrear y participar como equipo en el "ciclo de vida de una idea computacional". Guía a los participantes a través de la creación de un proyecto de ciencia de datos de muestra basado en el ecosistema de Jupyter.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Jupyter, incluida la creación e integración de un repositorio de equipo en Git.
- Utilice las funciones de Jupyter, como extensiones, widgets interactivos, modo multiusuario, etc., para habilitar la colaboración en proyectos.
- Cree, comparta y organice Jupyter Notebooks con los miembros del equipo.
- Elija entre Scala, Python, R, para escribir y ejecutar código en sistemas de big data como Apache Spark, todo a través de la interfaz de Jupyter.
Kaggle
14 HorasEsta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a científicos de datos y desarrolladores que desean aprender y desarrollar sus carreras en Data Science utilizando Kaggle.
Al final de esta formación, los participantes serán capaces de:
- Más información sobre la ciencia de datos y el aprendizaje automático.
- Explora el análisis de datos.
- Obtenga más información sobre Kaggle y cómo funciona.
Fundamentos de MATLAB, Ciencia de datos y generación de informes
35 HorasEn la primera parte de esta capacitación, cubrimos los fundamentos de MATLAB y su función como lenguaje y plataforma. En esta discusión se incluye una introducción a MATLAB la sintaxis, matrices y matrices, la visualización de datos, el desarrollo de scripts y los principios orientados a objetos.
En la segunda parte, demostramos cómo usar MATLAB para la minería de datos, el aprendizaje automático y el análisis predictivo. Para proporcionar a los participantes una perspectiva clara y práctica del enfoque y el poder de MATLAB, establecemos comparaciones entre el uso de MATLAB y el uso de otras herramientas como hojas de cálculo, C, C++ y Visual Basic.
En la tercera parte de la formación, los participantes aprenden a agilizar su trabajo automatizando el procesamiento de datos y la generación de informes.
A lo largo del curso, los participantes pondrán en práctica las ideas aprendidas a través de ejercicios prácticos en un entorno de laboratorio. Al final de la capacitación, los participantes tendrán una comprensión profunda de las capacidades de MATLAB y podrán emplearlas para resolver problemas de ciencia de datos del mundo real, así como para optimizar su trabajo a través de la automatización.
Se llevarán a cabo evaluaciones a lo largo del curso para medir el progreso.
Formato del curso
- El curso incluye ejercicios teóricos y prácticos, que incluyen discusiones de casos, inspección de código de muestra e implementación práctica.
Nota
- Las sesiones de práctica se basarán en plantillas de informes de datos de muestra preestablecidas. Si tiene requisitos específicos, póngase en contacto con nosotros para organizarlo.
Accelerating Python Pandas Workflows with Modin
14 HorasEsta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a científicos de datos y desarrolladores que desean usar Modin para crear e implementar cálculos paralelos con Pandas para un análisis de datos más rápido.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para comenzar a desarrollar Pandas flujos de trabajo a escala con Modin.
- Comprender las características, la arquitectura y las ventajas de Modin.
- Conoce las diferencias entre Modin, Dask y Ray.
- Realice Pandas operaciones más rápido con Modin.
- Implemente toda la API Pandas y las funciones.
Programación Python para Finanzas
35 HorasPython es un lenguaje de programación que ha ganado gran popularidad en la industria financiera. Utilizado por los mayores bancos de inversión y fondos de cobertura, se está empleando para construir una amplia gama de aplicaciones financieras que van desde los principales programas de negociación hasta los sistemas de gestión de riesgos.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán cómo usar Python para desarrollar aplicaciones prácticas para resolver una serie de problemas específicos relacionados con las finanzas.
Al final de esta capacitación, los participantes podrán:
- Comprender los fundamentos del lenguaje de programación Python
- Descargar, instalar y mantener las mejores herramientas de desarrollo para crear aplicaciones financieras en Python
- Seleccionar y utilizar los paquetes y técnicas de programación más adecuados de Python para organizar, visualizar y analizar datos financieros de diversas fuentes (CSV, Excel, bases de datos, web, etc.)
- Construir aplicaciones que resuelvan problemas relacionados con la asignación de activos, el análisis de riesgos, el rendimiento de las inversiones y más
- Solucionar problemas, integrar, implementar y optimizar una aplicación en Python
Audiencia
- Desarrolladores
- Analistas
- Quants
Formato del curso
- Parte teórica, parte discusión, ejercicios y práctica intensiva
Nota
- Esta capacitación tiene como objetivo proporcionar soluciones para algunos de los principales problemas que enfrentan los profesionales de las finanzas. Sin embargo, si tiene un tema, herramienta o técnica en particular que desee agregar o ampliar, por favor contáctenos para organizarlo.
GPU Data Science with NVIDIA RAPIDS
14 HorasEsta capacitación en vivo dirigida por un instructor en Argentina (en línea o presencial) está dirigida a científicos de datos y desarrolladores que desean usar RAPIDS para crear canalizaciones, flujos de trabajo y visualizaciones de datos acelerados GPU, aplicando algoritmos de aprendizaje automático, como XGBoost, cuML etcetera.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno de desarrollo necesario para crear modelos de datos con NVIDIA RAPIDS.
- Comprenda las características, componentes y ventajas de RAPIDS.
- Aproveche GPUs para acelerar las canalizaciones de datos y análisis de extremo a extremo.
- Implemente la preparación de datos acelerada GPU y ETL con cuDF y Apache Arrow.
- Aprenda a realizar tareas de aprendizaje automático con los algoritmos XGBoost y cuML.
- Cree visualizaciones de datos y ejecute análisis de gráficos con cuXfilter y cuGraph.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Argentina, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Apache Spark MLlib
35 HorasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consta de algoritmos y utilidades de aprendizaje comunes, como clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.
Se divide en dos paquetes:
-
spark.mllib contiene la API original creada sobre RDD.
-
spark.ml proporciona una API de nivel superior basada en DataFrames para construir canalizaciones de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas incorporada para Apache Spark
Ciencia de Datos: Análisis y Presentación
7 HorasEl entorno integrado del sistema Wolfram lo convierte en una herramienta eficiente tanto para analizar como para presentar datos. Este curso cubre aspectos del Wolfram Lenguaje relevantes para la analítica, incluido el cálculo estadístico, la visualización, la importación y exportación de datos y la generación automática de informes.