Incontournables dans les stacks data modernes, les cloud data warehouses s’imposent comme des solutions phares lorsqu’il s’agit de produire des analyses s’appuyant sur les données des entreprises. BigQuery figure parmi les services les plus utilisés de la plateforme Google Cloud. La solution serverless présente de nombreux avantages (liste non exhaustive) :
- Disponibilité rapide : nul besoin d’heures de configuration et/ou de ressources physiques (machines, disques) pour la création d’un data warehouse
- Vitesse et performance : ingestion et requêtage de très grands volumes de données à une rapidité impressionnante
- Intégration : un grand nombre de connecteurs disponibles (internes à GCP, multicloud, etc.)
- Evolutivité : l’infrastructure de stockage s’adapte aux besoins et aux évolutions de votre projet
- Abordable : la charge financière associée à l’utilisation de BigQuery peut être déclinée en deux parties distinctes :
Sommaire
Accès à l’interface BigQuery
Première étape, se connecter à un compte Google sur la plateforme Google Cloud.
Une fois connecté·e, l’interface BigQuery sera accessible depuis :
- Le panneau de navigation situé à gauche de la page (si épinglé et/ou disponible par défaut dans le menu)
- La page de Bienvenue, dans la section “Accès rapide” (si disponible)
- La barre de recherche, dans la catégorie “Produits et pages”
Présentation de l’interface BigQuery
La prise en main de l’outil est plutôt aisée du fait son interface simple et intuitive.
Nous y retrouvons :
- Le nom du projet GCP sélectionné (cf. 1)
- Le menu de navigation BigQuery (cf. 2)
- Le bouton de création de table à partir d’un fichier local, de connecteurs internes ou externes, de datasets publics (cf. 3)
- l’Organisation du/des projets BigQuery en ensembles de données, tables et/ou vues (cf. 4)
- Les onglets d’édition de code et/ou de visualisation d’ensembles de données, tables/vues (cf. 5)
- Les différentes actions pouvant être menées à partir d’une requête (cf. 6)
- Le panneau de développement ou de visualisation des informations d’un ensemble de données, tables/vues (cf. 7)
- Le panneau de résultats de la requête. Plusieurs informations disponibles et organisées en onglets (cf. 8)
- Le menu d’export des résultats de la requête. Plusieurs options disponibles (cf. 9)
- Le menu d’exploration et de visualisation des données résultant d’une requête. Plusieurs options disponibles (cf. 10)
- Les historiques des requêtes personnelles et du projet BigQuery (cf. 11)
Bien débuter sur BigQuery
Organisation
L’organisation d’un projet se présente comme suit :
- ID du projet BigQuery (adossé à un projet GCP)
- Ensemble de données
- Tables
- Vues
- Ensemble de données
Chaque projet BigQuery peut contenir plusieurs ensembles de données qui peuvent, eux-mêmes, contenir plusieurs tables et/ou vues.
Exemple :
Information utile : des jeux de données publiques sont mis à disposition sur BigQuery. Pour y accéder, tapez “public” dans la barre de recherche de l’explorateur. Si le projet “bigquery-public-data” n’apparait pas, cliquez sur le bouton “RECHERCHER DANS TOUS LES PROJETS”.
Fonctionnalités intéressantes (liste non exhaustive)
Création de tables et connecteurs
Comme précisé dans la partie Organisation, il est nécessaire de créer un ensemble de données avant de créer une ou plusieurs table(s). Une fois crée, l’une des options pour créer une table est de cliquer sur le bouton “AJOUTER”, situé en haut à droite de l’explorateur.
Plusieurs options s’offrent à nous concernant le chargement et la provenance de nos données. Un vaste choix de connecteurs est mis à disposition sur BigQuery. Parmi eux, des connecteurs de l’écosystème cloud GCP (Cloud Data Storage, Bigtable, Pub/Sub, etc.), mais aussi des connecteurs “externes” multicloud (AWS S3, Azure Blob Storage, etc.), pour ne citer qu’eux.
Enregistrement de requêtes et création de vues
Le bouton “ENREGISTRER” situé en haut du panneau de développement permet d’enregistrer une requête / créer une vue à partir du requête. Il existe plusieurs options de sauvegarde :
- Sauvegarde personnelle : seul l’utilisateur ayant fait la sauvegarde aura accès à la requête.
- Sauvegarde au niveau projet : seuls les utilisateurs ayant les droits appropriés au niveau projet pourrons consulter / utiliser la requête sauvegardée.
- Sauvegarde publique : Tous les utilisateurs de l’organisation, y compris les utilisateurs qui ne sont pas membres du projet, peuvent accéder à la requête.
Concernant la création de vue, il suffira de sélectionner le projet et l’ensemble de données dans lesquels la vue sera stockée et la nommer. Dès lors, la vue apparaitra dans l’Explorateur.
Programmation de requêtes
Admettons que nous souhaitions exécuter nos vues tous les jours dans le but de produire une table contenant les données actualisées de notre activité. Cela peut se faire en utilisant le service de programmation de requêtes de BigQuery (bouton “PLANIFIER” situé en haut du panneau de développement). Il sera alors demandé de choisir les détails de planification :
- Dates de début, de fin, fréquence
- Destination de la requête programmée
- Etc.
Une fois la planification réalisée, la gestion des requêtes programmées peut se faire depuis la page dédiée “Requêtes programmées”.
Étapes en image :
1 – Activation de l’API BigQuery Data Transfer
2 – Configuration de la planification
3 – Gestion des requêtes programmées
NB : Il est conseillé de conserver la même région d’hébergement que celle du projet GCP pour la programmation de requêtes.
Information utile : Lors de la première planification, il sera demandé d’activer l’API BigQuery Data Transfer. Bien que ce service soit activé, le coût d’une requête programmée est identique à celle d’une requête manuelle.
Export des données
Les données résultant d’une requête peuvent être exportées via le panneau des “Résultats de la requête” (partie inférieure de BiqQuery Studio). Le bouton “ENREGISTRER LES RÉSULTATS” permet un export des données dans plusieurs formats.
Nous pouvons conclure en affirmant que l’une des principales forces de BigQuery réside dans sa facilité d’utilisation et son intégration transparente avec d’autres outils et services du cloud. Cela permet aux utilisateurs, même sans une expertise approfondie en matière de gestion de bases de données, de tirer parti de cette puissante plateforme d’analyse.
De plus, la tarification basée sur la consommation réelle en font une solution économique pour les entreprises de toutes tailles. Cela permet d’ajuster les coûts en fonction des besoins réels, favorisant ainsi une utilisation efficiente des ressources.