1
Comprender los conceptos y los retos de los Big Data
- Orígenes y definición de Big Data.
- Las cifras clave del mercado en el mundo y en Francia.
- Los retos de los Big Data: Rendimiento de la inversión, organización y confidencialidad de los datos.
- Un ejemplo de arquitectura de Big Data.
2
Tecnologías de Big Data
- Descripción de la arquitectura y componentes de la plataforma Hadoop.
- Modos de almacenamiento (NoSQL, HDFS).
- Principios de funcionamiento de MapReduce, Spark, Storm...
- Principales distribuciones del mercado (Hortonworks, Cloudera, MapR, Elastic Map Reduce y Biginsights).
- Instalar una plataforma Hadoop.
- Las tecnologías del datascientist.
- Presentación de tecnologías específicas para Big Data (Tableau, Talend, Qlikview, etc.).
Ejercicio
Instalación de una plataforma Big Data Hadoop (a través de Cloudera QuickStart u otra).
3
Gestionar datos estructurados y no estructurados
- Principios de funcionamiento del sistema de archivos distribuido Hadoop (HDFS por su sigla en inglés).
- Importar datos externos a HDFS.
- Realizar consultas SQL con HIVE.
- Usar PIG para procesar datos.
- El principio de ETL (Talend...).
- Gestión de streaming de datos masivo (NIFI, Kafka, Spark, Storm, etc.)
Ejercicio
Implementación de flujos de datos masivos.
4
Técnica y métodos de análisis de Big Data
- El aprendizaje automático, un componente de la inteligencia artificial.
- Descubrir las tres familias: Regresión, clasificación y agrupación.
- Preparación de datos (preparación de datos, ingeniería de características).
- Generar modelos en R o Python.
- Aprendizaje por conjuntos.
- Descubrir las herramientas disponibles en el mercado: Jupyter Notebook, Dataïku, Amazon Machine Learning, etc.
Ejercicio
Realización de análisis con una de las herramientas estudiadas.
5
Visualización de datos y casos de uso concretos
- Definir la necesidad de la visualización de datos.
- Análisis y visualización de datos.
- ¿Pueden utilizarse todos los tipos de datos en DataViz?
- Las herramientas DataViz del mercado.
Ejercicio
Instalación y utilización de una herramienta de visualización de datos para crear análisis dinámicos.
6
Conclusión
- Lo que hay que recordar.
- Síntesis de buenas prácticas.
- Bibliografía.