1
¿Qué es la ciencia de datos?
- Conceptos básicos: big data, lago de datos, minería de datos, inteligencia artificial, aprendizaje automático y profundo, minería de textos.
- Los nuevos retos: la aparición y multiplicación de nuevas fuentes de datos.
- Hay que tener en cuenta la heterogeneidad de los datos, los flujos en tiempo real y la explosión de los volúmenes de datos.
- El ecosistema tecnológico de Big Data.
- Desmitificando el mundo de la ciencia de datos: análisis descriptivo, predictivo y prescriptivo.
- El trabajo, las herramientas y los métodos del científico de datos.
- Introducción al aprendizaje automático, análisis supervisado y análisis no supervisado.
- Nociones de sobreaprendizaje y subaprendizaje.
Demostración
Casos de uso de la ciencia de datos en una cadena de valor empresarial (comportamiento del cliente, oferta de productos, etc.).
2
Métodos y modelos de la ciencia de datos
- Recogida, preparación y exploración de datos.
- La importancia del enfoque de la calidad de los datos (limpieza, transformación, enriquecimiento).
- Definición de métrica.
- Métodos estadísticos básicos.
- Las principales clases de algoritmos supervisados: árboles de decisión, vecinos más próximos a K, regresión, Naive Bayes.
- Las principales clases de algoritmos no supervisados: clustering, PCA, CAH, redes neuronales.
- Minería de textos y otras familias de algoritmos.
Intercambios
Análisis sencillos con R o Python para ilustrar las técnicas de análisis supervisado (regresión y clasificación) y no supervisado (agrupación, segmentación y detección de anomalías).
3
Representación gráfica y recuperación de datos
- Lenguajes de análisis estadístico R y Python.
- Sus entornos de desarrollo (R-Studio, Anaconda, PyCharm) y bibliotecas (Pandas, aprendizaje automático).
- Herramientas DataViz (Power BI, Qlik, Tableau, etc.).
- Modelización de datos: representación de procesos, flujos, controles y condiciones.
- Comunicación de resultados mediante la narración de datos: organización de elementos visuales (diagramas, clasificaciones, mapas).
- Modelización de datos: herramientas (Orange, Power BI).
- Comunicación de resultados mediante la narración de datos: transmitir la importancia de los resultados.
Intercambios
Ejercicios de exploración gráfica de datos, análisis de la posición y extensión de los datos (nubes, histogramas, etc.).
4
Modelización de un problema de ciencia de datos
- Resumen del proceso.
- Estudio de caso 1: relaciones con los clientes en el sector de los seguros.
- Dirigir las campañas de marketing. Comprender las causas de la pérdida de clientes. ¿Qué productos para qué clientes?
- Caso práctico 2: detección del fraude.
- Comparar la investigación mediante estadísticas tradicionales y minería de datos.
- Detección por método supervisado. Detección no supervisada.
- Análisis de dos casos empresariales, las relaciones con los clientes y la detección de fraudes, por ejemplo, pero también son posibles otros.
Estudios de caso
Aplicación práctica del método storytelling a casos empresariales.