Dans un contexte Big Data qui évolue rapidement, il devient de plus en plus complexe de gérer l’ensemble de ses données. Elles peuvent se trouver dans des bases de données relationnelles, non relationnelles, en fichiers et même dans le Cloud !

Le croisement de ses sources de données et son analyse peuvent s’avérer long et coûteux. La question est de savoir : comment peut-on accélérer la mise à disposition des données ? La Data Virtualization a répondu à cette question.

On peut reprendre la définition de la DAMA (Data Management Association)  

La Data Virtualization permet d’accéder et de visualiser les bases de données distribuées et les multiples Data Stores hétérogènes comme une base de données unique. Plutôt que d’effectuer une ETL sur les données de façon physique à l’aide de moteurs de transformation, les serveurs de Data Virtualization effectuer l’extraction, la transformation et l’intégration virtuellement

Il existe plusieurs solutions de Data Virtualization sur le marché mais Starburst est arrivée avec une volonté de faire évoluer le marché avec une démarche orientée “Data Product” reprenant les principes du Data Mesh !

Starburst est une solution de data virtualization ayant comme slogan : « A single point of access to all your data”. Crée en 2017 par des anciens salariés de chez Presto, la société a levé plus de 400 millions de dollars. Basée sur le moteur open source Trino, anciennement PrestoSQL, Starburst veut accélérer les projets analytiques des entreprises en facilitant l’accès aux données pour les différents utilisateurs.

Un seul point d’accès à vos données

Starburst se définit autour de quatre grands axes d’utilisation :

  • Accelerate Data Lake Analytics
  • Federated Analytics
  • Migration and ETL
  • Cross-Cloud Analytics

La solution reprend les principes du MPP (Massively Parallel Processing), Starburst va donc pouvoir paralléliser les calculs sur un cluster de machines (worker nodes), le tout chapeauter par un coordinateur qui se chargera de recevoir les requêtes utilisateurs et de les distribuer sur les différents nœuds (coordinator node).

Orienté initialement sur de l’interrogation de données stockées dans des architectures Datalake, Starburst a désormais plus de cinquante connecteurs pour des sources de types relationnels, non relationnel et même du streaming (Kafka, Azure Event Hub, Amazon Kinesis,…) !

La solution peut se déployer à peu près n’importe où : OnPremise, Cloud, Hybrid et même sur Kubernetes ! Une solution SaaS est également proposée : Starburst Galaxy.

Fédérer vos sources de données

Starburst Galaxy permet d’accéder à l’ensemble des sources de données standard :

  • Data Lake : Amazon S3, Azure Data Lake Storage, Google Cloud Storage
  • SQL : Postgres, MySQL, Microsoft SQL Server
  • Datawarehouse : Amazon Redshift

Un catalogue de données contient les informations de connexion pour permettre à Starburst d’accéder aux sources.

Prêt à jouer !

Votre donnée est désormais accessible ! Vous pouvez maintenant commencer à l’interroger en réalisant des requêtes SQL ad-hoc directement depuis la “Query editor”. Une fois votre requête réalisée, il est possible d’en créer une vue matérialisée ou bien de télécharger le résultat directement sous forme de fichier (CSV, Excel). Mais la force de la solution est de pouvoir charger la donnée, à la manière d’un ETL, directement vers une base de donnée cible.

Monitoring

Starburst propose des outils de monitoring pour piloter l’activité au sein de la plateforme. Vous pouvez suivre vos utilisateurs avec l’historique des requêtes effectués sur chacun des clusters mais aussi sur chacune des sources. Pour les administrateurs, un audit de la consommation des clusters et des requêtes est aussi proposé.

La gestion des utilisateurs reprend le principe de RBAC (Role-Based Access Control). Vous pouvez assigner des rôles à un groupe d’utilisateurs permettant de limiter l’accès à l’ensemble des ressources et réaliser du data masking.

Analysons tout ça !

L’outil est compatible avec la plupart des outils de data visualisation (Tableau, PowerBI, Qlik), mais également avec dbt, looker et propose enfin un connecteur ODBC et JDBC !

Envie d’en savoir plus ? N’hésitez pas à nous contacter pour découvrir nos offres !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *