La dernière mise à jour de DBT (Data Build Tool) apporte des fonctionnalités significatives, répondant aux besoins des équipes de données modernes dans des environnements de plus en plus complexes. Cette version se concentre sur des optimisations pour les traitements massifs de données, des intégrations élargies pour les plateformes de Lakehouse et des outils avancés pour une gestion plus intuitive. Voici un aperçu des nouveautés de DBT Core et DBT Cloud.
Nouveautés de DBT Core
Microbatching :
Une nouvelle stratégie incrémentale pour le traitement des données par lots est introduit pour les charges de données massives, permettant des chargements de données plus flexibles et mieux optimisés pour les tables volumineuses.
Snapshots améliorés :
Les capacités de snapshots ont été perfectionnées pour offrir une gestion plus optimisée des modifications de données historiques.
Support Iceberg :
Le format de table Apache Iceberg est désormais pris en charge, essentiel pour la gestion de données sur Lakehouse, avec des intégrations pour Snowflake, Athena, Spark et d’autres plateformes.
Nouveautés pour dbt Cloud
Cross-platform dbt Mesh :
Avec cette fonctionnalité, les utilisateurs peuvent interroger des sources de données et modèles provenant de plusieurs projets et plateformes, facilitant une gestion unifiée des données pour les environnements multi-plateformes
Dbt Copilot :
Ce moteur d’IA intégré automatise la documentation, les tests et la création de modèles, ce qui améliore la qualité des données et réduit les tâches manuelles.
Éditeur visuel sans code (data pipelines) :
dbt Cloud dispose désormais d’une interface visuelle drag-and-drop qui sera disponible fin 2024. Conçue pour les utilisateurs non techniques, elle permet de construire des modèles de données sans écrire de SQL, tout en assurant la version, le test et la documentation de tous les modèles.
Expositions automatiques avec Tableau (Lineage & data health) :
La relation entre les modèles dbt et les visualisations Tableau est renforcée, avec des expositions automatiques qui montrent l’impact des données en temps réel, ce qui améliore la transparence pour les utilisateurs finaux.