Introduction
Windows Azure HDInsight déploie dans le Cloud la plateforme Windows Azure et le Framework Apache Hadoop.
Le Framework facilite la gestion de gros volumes de données grâce à son système de fichier distribué HDFS (Hadoop Distributed File System) et un modèle de programmation MapReduce permettant de traiter rapidement de grandes quantités de données en parallèle.
Big Data
Aujourd’hui il est difficile de gérer / traiter un grand volume de données dans un SGBDR (Système de gestion de base de données relationnelle) conventionnel.
En effet, sois :
- Les volumes de données sont trop grands
- Les données arrivent à une vitesse trop élevée
- Les données sont variées et non structurées
Voici ce qui définit donc le Big Data (4V) : Volume, Velocity, Variety et Variability
Apache Hadoop
Les capacités des disques durs ont évolué de façon spectaculaire depuis les 20 dernières années, d’énormes quantités de données sont générées chaque jour (« Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. » An IBM eBook). Cependant, les temps de lecture / écriture restent lents.
Voici comment Hadoop réduit ce goulot d’étranglement :
- HDFS propose une architecture distribuée qui stocke les données sur plusieurs disques et permet une lecture parallélisée des données
- MapReduce permet de travailler avec des données non structurées sans schéma prédéfini (il interprète les données lorsqu’elles sont traitées)
L’écosystème d’Hadoop
- Pig : l’ETL (Extract-Transform-Load)
- Hive : gestionnaire des données distribuées
- Mahout : constructeur de bibliothèques évolutives d’apprentissage automatique
- Pegasus : permets d’analyser des pétaoctets de données graphiques
- Sqoop : permets de transferer des données entre Hadoop et des SGBDR (Bulk)
- Flume : un service fiable, efficace et disponible pour la collecte, le regroupement et le déplacement de grandes quantités de données
- Business intelligence tools : des outils tels qu’Excel, PowerPivot, SQL Server Analysis Services et Reporting Services permettent d’analyser les données provenant de Hadoop en utilisant les pilotes ODBC (Hive ODBC)
Hadoop dans Windows Azure CTP
Le service Hadoop sur Windows Azure est disponible uniquement sur invitation CTP (Community Technical Preview). La CTP permet aux développeurs de tester le service et de remonter à Microsoft les éventuelles erreurs.
Les clusters sont provisionnés pour une durée de quelque jour (pour 5 jours aujourd’hui).
Lorsqu’il reste moins de 6 heures, une prolongation est possible après quoi le cluster expirera.