1
Presentación del ecosistema científico Python
- Visión general del ecosistema científico de Python: las bibliotecas esenciales.
- Saber dónde encontrar nuevas librerías y evaluar su sostenibilidad.
- Las principales herramientas y software de código abierto para la ciencia de datos.
- Por qué usar la distribución científica, Anaconda.
- Comprender las ventajas de un entorno virtual y saber cómo utilizarlo.
- El intérprete IPython y el servidor Jupyter.
- Prácticas recomendadas para empezar con buen pie un proyecto de ciencia de datos con Python.
- Formatos de archivos científicos y bibliotecas para manipularlos.
Trabajo práctico
Configuración del entorno de desarrollo: instalación de Anaconda, creación de un entorno virtual, exportación y duplicación de un entorno, uso de cuadernos Jupyter.
2
La pila SciPy
- La base de las bibliotecas científicas esenciales en las que se basan todas las demás: la pila SciPy.
- NumPy: cálculo numérico y álgebra lineal (vectores, matrices, imágenes).
- SciPy, basado en NumPy para estadística, análisis funcional, análisis geoespacial, procesamiento de señales, etc.
- Pandas: análisis de datos tabulares (CSV, Excel, etc.), estadísticas, pivotes, filtros, búsquedas, etc.
- Matplotlib: la biblioteca esencial para la visualización de datos.
Trabajo práctico
Mida el rendimiento del NumPy instalado por su Linux y el de Anaconda. Procesamiento de imágenes con NumPy. Primeros gráficos. Análisis estadístico de ficheros CSV. Primeros elementos de mapeo. Transformadas de Fourier.
3
Mostrar bibliotecas
- Visión general de las bibliotecas de visualización de Python: 2D/3D, escritorio/web, estadística, cartografía, big data, etc.
- Bibliotecas orientadas al escritorio: Matplotlib, Pandas, Seaborn.
- Bibliotecas orientadas a la web: Bokeh, Altair, Plotly...
- Librerías 3D: Plotly, pythreejs, ipyvolume, etc.
- Bibliotecas cartográficas: Cartopy, folium, ipyleaflet, Bokeh, cesiumpy, etc.
- Bibliotecas de big data: datashader, Vaex...
Trabajo práctico
Una serie de ejercicios utilizando algunas de las bibliotecas presentadas. Big data, visualización cartográfica, 2D y 3D.
4
Visualización de datos
- Ventajas de la visualización de datos
- Uso de PyViz y el ecosistema HoloViz.
- Presentación de las herramientas SuperSet, Mayavi, Paraview y VisIt.
Trabajo práctico
Seguir utilizando bibliotecas de visualización y herramientas de manipulación.
5
Formatos de archivos científicos y tratamiento de datos voluminosos
- Panorama de los principales formatos de archivos científicos: NetCDF, HDF5, GRIB, JSON, PARQUET, MATLAB, CGNS, etc.
- Manejo de big data con Dask, Vaex y Xarray.
Trabajo práctico
Manejo de datos de más de GB, lectura y escritura de archivos NetCDF/HDF5. Visualización de datos climáticos, imágenes de satélite, creación de vídeos/animaciones gráficas.