1
Le big data
- Définition du périmètre du big data.
- Le rôle du projet Hadoop.
- Les concepts de base des projets big data.
- Présentation du cloud computing.
- Différence entre cloud computing privé et public.
- Les architectures big data à base du projet Hadoop.
Démonstration
Usage d'Hadoop et de GoogleApp.
2
Collecte de données et application de MapReduce
- Analyse des flux de données dans l'entreprise.
- Données structurées et non-structurées.
- Les principes de l'analyse sémantique des données d'entreprise.
- Graphe des tâches à base de MapReduce.
- La granularité de cohérence des données.
- Transfert de données depuis un système de persistance dans Hadoop.
- Transfert de données d'un Cloud dans Hadoop.
Travaux pratiques
Gérer la collecte d'informations clientèles par MapReduce. Configuration de l'implémentation Yarn. Développement d'une tâche basée sur Map Reduce.
3
Le stockage des données avec HBase
- Plusieurs types de base de données XML.
- Patterns d'usages et application au cloud.
- Application de Hadoop database au sein d'un workflow.
- Utilisation des projets Hive/Pig.
- Utilisation du projet HCatalog.
- L'API Java HBase.
Travaux pratiques
Gérer les modifications d'un catalogue de données fournisseur.
4
Le stockage des données sur HDFS
- Patterns d'usages et application au cloud.
- Architecture et installation d'un système HDFS, journal, NameNode, DataNode.
- Opérations, commandes et gestion des commandes.
- L'API HDFS Java.
- Analyse de données avec Apache Pig.
- Le langage Pig Latin. Utiliser Apache Pig avec Java.
- Requêtage avec Apache Hive.
- Réplication de données. Partage de données sur une architecture HDFS.
Travaux pratiques
Administrer un référentiel client partagé sur Hadoop. Utilisation de la console de visualisation.
5
Spring Data Hadoop
- Introduction à Spring et Spring Data.
- Le namespace Hadoop pour Spring.
- Utiliser Spring pour simplifier la configuration Hadoop.
- Configuration du cache distribué.
- Définition des jobs et dépendance entre jobs.
- Intégration des outils (Pig, Hive...).
Travaux pratiques
Refondre la gestion du catalogue de données fournisseur via Spring Data.