Qu’est-ce que le processus ETL ?

Le terme Extract-Transform-Load, plus connu sous le sigle ETL, dĂ©signe un processus informatique mis au point dès les annĂ©es 1970 lorsque les grandes entreprises ont commencĂ© Ă  agrĂ©ger et stocker un volume consĂ©quent de donnĂ©es disparates provenant de multiples sources. L’ETL a depuis poursuivi son essor, parallèlement Ă  celui des datawarehouses, jusqu’Ă  devenir aujourd’hui un procĂ©dĂ© incontournable du fait du nombre croissant de donnĂ©es traitĂ©es dans le monde.

Ainsi, selon l’Ă©dition 2019 du Statista Digital Economy Compass, la quantitĂ© totale de donnĂ©es gĂ©nĂ©rĂ©e par les entreprises s’est Ă©levĂ©e Ă  33 zettaoctets en 2018 et devrait atteindre les 175 zettaoctets d’ici 2025 et 2142 zettaoctects d’ici 2035. Pour rappel, un zettaoctet Ă©quivaut Ă  un milliard de terraoctets, soit le stockage d’un disque dur externe classique multipliĂ© par 1 milliard.

L’acronyme ETL vous paraĂ®t encore obscur ? Voici un guide complet sur le rĂ´le et le fonctionnement d’un ETL au sein de votre Ă©cosystème de gestion des donnĂ©es.

Il s’agit donc du chaĂ®non fondamental de la gestion des donnĂ©es, opĂ©rant Ă  la fois avec les sources de donnĂ©es, les datawarehouses et les data lakes et sans lequel les donnĂ©es recueillies seraient inexploitables.

1595252634393771

Les Ă©tapes du processus ETL

Comme son nom l’indique, l’ETL se dĂ©compose en trois phases : l’extraction, la transformation et le chargement.

Extract

Pour vous reprĂ©senter le fonctionnement d’un ETL, prenez l’exemple d’une entreprise vendant des biens Ă  la fois en ligne et dans ses magasins en propre et ayant besoin d’analyser simultanĂ©ment toutes les tendances de vente.

Les données recueillies sur les clients proviennent donc de sources hétérogènes et ne seront, par conséquent, peut-être pas au même format. Le logiciel ETL va dans un premier temps collecter les données pertinentes auprès des différentes sources. Les données extraites sont ensuite stockées dans un data lake ou datawarehouse.

Transform

La transformation constitue l’Ă©tape essentielle du processus ETL. En effet, après l’extraction, lors de laquelle les donnĂ©es brutes sont agrĂ©gĂ©es et stockĂ©es, celles-ci sont nettoyĂ©es et converties au format des rapports de l’entreprise. Le nettoyage facilite la mise en conformitĂ© avec les normes internes de l’entreprise. Ces opĂ©rations, sans lesquelles les rapports seraient inexploitables, sont basĂ©es sur des règles prĂ©dĂ©finies :

  • La standardisation qui statue entre autres sur le format et le mode de stockage.
  • La dĂ©duplication, soit le suivi et la suppression des doublons.
  • La vĂ©rification pour surveiller les anomalies et supprimer les donnĂ©es inutilisables.
  • Le tri ou regroupement des donnĂ©es afin de maximiser l’efficacitĂ© des requĂŞtes auprès du datawarehouse.

Load

Le processus ETL s’achève avec le chargement, complet ou incrĂ©mental, des donnĂ©es extraites et transformĂ©es dans le datawarehouse. Le chargement complet correspond gĂ©nĂ©ralement au premier chargement de la totalitĂ© des donnĂ©es dans l’entrepĂ´t. Le chargement incrĂ©mental s’applique aux chargements suivants, qui ajoutent des donnĂ©es dans un entrepĂ´t existant.

ETL ou ELT

Le processus ELT, Extract-Load-Transform, possède une architecture diffĂ©rente de l’ETL puisqu’il intervertit les deux dernières phases. Ainsi, les donnĂ©es extraites sont d’abord chargĂ©es dans le data lake et la transformation des donnĂ©es s’effectue au sein de cette base de donnĂ©es.

Après l’extraction, les donnĂ©es ne transitent donc pas sur un serveur de traitement temporaire comme dans le cas de l’ETL, mais sont directement livrĂ©es au data lake. Celui-ci aura la charge de trier, structurer et normaliser les donnĂ©es brutes. Ce processus peut, par exemple, ĂŞtre privilĂ©giĂ© lorsque la vitesse d’investigation prime, puisqu’il met rapidement Ă  disposition les informations brutes.

Les catégories ETL

Plusieurs classifications d’ETL sont possibles. Par exemple, fonctionnellement, certains logiciels sont plus axĂ©s sur la synchronisation des donnĂ©es tandis que d’autres, plus complexes, se concentrent sur leur transformation et leur enrichissement.

Voici une catĂ©gorisation selon les modalitĂ©s d’hĂ©bergement de la solution, devenues un vĂ©ritable enjeu, comme dans l’industrie informatique en gĂ©nĂ©ral, mais qui constituent aussi aujourd’hui un moyen pour une entreprise de se diffĂ©rencier.

On-premise

ReprĂ©sentant historique du marchĂ© des ETL, le modèle on-premise a dominĂ© le marchĂ© jusqu’Ă  environ 2010, avec notamment les solutions IBM InfoSphere DataStage et Microsoft SSIS. Les donnĂ©es Ă©taient alors gĂ©rĂ©es localement et processĂ©es en batches, ou traitements par lots, qui pouvaient durer des heures.

Ă€ l’instar de nombreuses autres solutions informatiques, l’ETL on-premise est aujourd’hui de plus en plus dĂ©laissĂ© au profit du cloud, en raison de la complexitĂ© d’utilisation et du prix Ă©levĂ© de ce modèle.

Cloud

Dans cette configuration apparue en 2005, le serveur de l’ETL est basĂ© sur un serveur distant dans le cloud. Ă€ mesure que les rĂ©seaux nationaux et internationaux devenaient plus performants, il est devenu de moins en moins pertinent de stocker les donnĂ©es dans des installations locales.

Le cloud est une solution plus légère, moins coûteuse et plus facile à mettre en place. Elle permet également de traiter les données en temps réel, avec un transfert des données extrêmement rapide, pouvant atteindre plusieurs gigabits par seconde. Fivetran et Alooma sont deux acteurs importants de cette catégorie.

Open source

Des ETL open source sont arrivĂ©s ces dernières annĂ©es sur le marchĂ©, tels que Talend Open Studio et Apache Airflow. Leur utilisation est gratuite, mĂŞme s’il faut prendre en compte les coĂ»ts de dĂ©ploiement, sachant que leur dĂ©veloppement est liĂ© Ă  celui des solutions de Business Intelligence open source (OSBI).

Pour aller plus loin, tĂ©lĂ©chargez ce kit d’Ă©tude marchĂ© gratuit et conduisez votre propre Ă©tude afin d’Ă©tudier vos concurrents et de mieux cerner le profil de vos clients potentiels.Bottom-CTA : Kit d'Ă©tude de marchĂ©


Lire l’article sur le site Source

Ajouter un commentaire

Les champs requis sont indiqués *