Le 15 Avril dernier, un grand évènement pour le lancement de SQL Server 2014 a u lieu à San Francisco. Le PDG Satya Nadella, Quentin Clark Corporate Vice President Data Platform Group et le COO Kevin Turner ont partagé leurs points de vue sur le rôle des données dans l’entreprise. Satya a exposé sa vision d’une plate-forme construite pour l’ère de l’intelligence, il a également souligné l’importance d’une « Culture » de la donnée encourageant la curiosité, l’action et l’expérimentation et ceux grâce à des solutions technologiques mettant les données à la portée de tous !
Pour revoir le replay : Accelerate your insights
Dans cet article je ne vais pas vous faire un résumé de ce qui s’est dit durant la Keynote mes collègues en ont déjà parlé : Jean-Pierre Riehl, Florian Eiden, …
Je citerais cependant les trois grandes nouveautés :
- SQL Server 2014 : Cette version apporte entre autres les capacités de l’In Memory pour l’OLTP et la Business Intelligence.
- Analytics Platform System (APS) : Combine le meilleur de la base de données SQL Server et les technologies Hadoop dans une Appliance.
- Preview of Intelligent Systems Service : Nouveau service Azure permettant de capturer, transformer et gérer des données provenant de différentes machines et capteurs.
Vous l’aurez compris, dans cet article je vais faire un focus sur Analytics Platform System, l’évolution de Parallel Data Warehouse intégrant désormais la possibilité d’interroger des données dans l’entrepôt de données relationnelles traditionnelles et les données stockées dans Hadoop, la vraie nouveauté est la possibilité d’avoir un clusteur HDInsight à l’intérieur de l’Appliance.
Revenons avant toute chose sur la description de chacun de ces composants.
Parallel Data Warehouse (PDW)
PDW est une Appliance qui offre une puissance de traitement de données exceptionnelles basée sur une architecture dite MPP (Massive Parallel Processing). Elle permet d’obtenir des performances jusqu’à 100 fois supérieures à un serveur traditionnel et est capable de gérer des données structurées comme non structurées notamment avec PolyBase que nous verrons par la suite.
Polybase
Polybase permet d’effectuer des requêtes T-SQL sur des données distribuées relationnelles stockées dans PDW et des données distribuées non relationnelles stockées dans HDFS (Hadoop Distributed File System).
Polybase support Hadoop sur Linux et Windows et est dit « agnostique » car le format, la structure et l’emplacement des données peuvent être variée et connue que lors de l’exécution de la requête.
Avec Polybase il n’est question que de données, de questions et de réponses, les utilisateurs n’ont pas a se soucier de la technologie et de ses complexités. Ils n’ont plus qu’a se soucier des coûts (en particulier OPEX), d’obtenir des réponses (rapidement) dans le but de rester compétitif :
- Réduire les coûts en conservant les compétences existantes et en utilisant des outils familiers (KISS principe).
- Obtenir des réponses grâce à une intégration simple, performante et Scalable en minimisant le mouvement de données.
- Rester compétitif en augmentant le nombre de questions, leurs complexités et leurs volumétries tout en réduisant les temps de réponse en utilisant une plateforme flexible encourageant l’expérimentation.
HDInsight
HDInsight n’est plus à présenter, surtout si vous suivez mon blog : HDInsight.
HDInsight est une version du framework Apache Hadoop s’exécutant sous un OS Windows . Plusieurs versions sont disponibles : HDInsight service dans Azure et HDInsight Server On Premise. Microsoft travaille en collaboration avec Hortonworks pour améliorer le service (initiative Stinger).
La dernière version de HDInsight est la version 3.0 se basant sur Hortonworks Data Platform version 2.0 (Hadoop 2.2). Cependant la version par défaut reste la version 2.1 se basant sur Hortonworks Data Platform version 1.3.
Analytics Platform System
Rentrons maintenant dans le vif du sujet, et à ce titre voici une petite vidéo (en anglais) d’APS :
https://www.youtube.com/watch?v=Hssv3me0dd4&feature=youtu.be
L’Appliance Microsoft Analytics Platform System (APS) contient à la fois Microsoft SQL Server 2012 Parallel Data Warehouse (PDW) et HDInsight. Simple à déployer, APS est livré pré-configuré avec les logiciels, les matériaux et les composants réseaux dans un souci d’optimisation de performance. Il est aussi conçu pour évoluer suivant les besoins des utilisateurs.
Regardons plus en détail son architecture :
APS est découpé en Région et en Workload, une Région est conteneur logique permettant de cloisonner la charge de travail, la sécurité, les services. Un Workload est un clusteur de traitement de données.
La Region PDW contient :
- L’infrastructure de l’Appliance
- Le moteur de base de données distribué (PDW)
- Hadoop Data Integration (Polybase)
- Management Console
La Region Hadoop contient :
- HDInsight (HDP 1.3)
- Un tableau de bord pour les développeurs
Contrairement aux solutions SMP qui exécutent des requêtes sur un seul rack partageant CPU, mémoire et les opérations sur disques nécessitant l’achat de serveur de plus en plus puissant, les infrastructures MPP tel que APS permettent de commencer avec un petit rack et de l’agrandir pour soutenir les charges de travail des entrepôts de données jusqu’à 6 pétaoctets.
En utilisant les index en mémoire columnstore clusteur pour stocker des données sur le disque, PDW atteint des taux élevés de compression de données qui permettent d’économiser les coûts de stockage et d’améliorer les performances des requêtes :
Pour charger les données dans l’Appliance, il existe les solutions suivantes :
- File Based : La commande « dwloader.exe », Hadoop tools
- Heterogeneous Sources : SSIS 2010 & 2012, Informatica PowerCenter, SAP Business ODI
Quelques imprime écran de la console d’administration permettant de surveiller l’Applicance :
Ressources
- SQL Server to SQL Server PDW Migration Guide
- Polybase : Split Query Processing in Polybase
- Parallel Data Warehouse (PDW) : AU1 released
- Analytics Platform System Pricing and Licensing
Comments are closed.