Démonstration préparée pour l’Après-midi du développement : Big Data : Hadoop sur Azure qui aura lieu le 24 mai 2012 chez Microsoft : http://aka.ms/amdev-hadoop
La vidéo est disponible a cette adresse : ICI
1 – Hadoop dans le cloud avec Windows Azure
Hadoop est une librairie open source pour traiter d’importantes masses de données en mode distribuée. Hadoop est aujourd’hui le leader du domaine et du Big Data.
2 – Rapatrier des données provenant d’un Blob Storage Azure
- Dans Manage Cluster, configurer votre Azure Blob Storage.
- Connectez vous en Remote Desktop
- Exécuter les commandes shell afin de distribué sur le cluster vos données
Hadoop distcp asv://demo/iislogsTB-out-H demo/iislogsTB-out-H
Hadoop distcp asv://demo/iislogsTB-out-D demo/iislogsTB-out-D
Information sur la commande Distcp : http://hadoop.apache.org/common/docs/current/distcp.html
3 – Requête Hive
Dans Interactive Console, Interactive Hive nous allons créer des « External Table » afin de pouvoir accéder aux données rapatriées.
4 – Interrogation des données dans Excel
Afin de pouvoir interroger vos données de votre cluster Hadoop depuis Excel il vous faut télécharger et installer :
- Hive ODBC driver
- Hive Add-in for Excel.
Ouvrez le port « ODBC Server » :
Configuration de la connexion Hive ODBC :
5 – Projet de Business Intelligence
Nous allons alimenter un petit Datamart à partir de notre cluster Hadoop.
Création de notre base de données dans SQL Server 2012 :
- Création d’un Package SSIS :
Création d’un cube SSAS Tabular :
6 – Drill-Down
Nous avons alimenté le Datamart à partir de données agrégées provenant du cluster Hadoop.
Grace à une requête Hive, les données de granularités les plus fines peuvent toujours être récupérées !
[/dropcap]Version longue en PDF : ICI
Hey very nice blog!! Man .. Excellent .. Amazing ..
I’ll bookmark your site and take the feeds additionally? I am
happy to find so many helpful info right here in the post, we’d like develop extra techniques in this regard,
thank you for sharing. . . . . .