Start Wrangling

Speed up your data preparation with Trifacta

Free Sign Up
Trifacta Ranked #1 in Data Preparation Market Study

Dresner Advisory Services study reviews and ranks 24 vendors

Get the Report
Schedule a Demo

Qu’est ce que le Data Wrangling ?

February 26, 2018

Après mes voeux et quelques idées pour 2018 inspirés par le CEO de Trifacta, rentrons maintenant dans le vif du sujet et répondons à la question “Qu’est ce que le Data Wrangling ?”.

Des données brutes à l’analyse : Le Data Wrangling, aussi appelé Préparation de Données en Self-Service, est le processus qui permet à partir des données brutes de les découvrir, structurer, nettoyer, enrichir, valider et de publier les résultats dans un format adapté à l’analyse des données.

Mais pourquoi Wrangling ? En fait un Wrangler est un cowboy et donc ici le Data Wrangler peut être vu comme le cowboy de la donnée, essayant de rassembler ses données éparpillées de la même manière qu’un cowboy rassemble ou tri son bétail. Le terme wrangling, utilisé dans le langage courant aux Etats-Unis, induit que l’activité est laborieuse, déplaisante, fatiguante mais que celle-ci doit nécessairement être réalisée afin d’aboutir à un travail bien fait. Par exemple, vous pourriez demander à votre enfant, “Wrangle your room”, ce qui signifie en Francais “range cette pagaille” (en restant poli) 

Ramené à la donnée, cela représente 80% du temps passé par les équipes informatiques, les analystes métiers ou les data scientists à manipuler, transformer et préparer des données.

C’est donc un travail fastidieux et important qui devient de plus en plus consommateur de ressources et d’énergie avec la multitude de nouveaux formats de donnée et les volumes toujours plus importants de données produites et échangées. De même les équipes informatiques et IT n’ont pas toujours le temps de préparer les données pour tous les besoins métiers, il faut donc donner plus d’autonomie aux équipes métiers pour qu’elles préparent elle-même leurs données pour leurs besoins spécifiques.

Voici un peu plus de détail sur les principales étapes du Data Wrangling:

1/ La Découverte

Découvrez et explorez vos données brutes. Découvrez les structures, les contenus, la qualité et la distribution de vos données brutes quelques soit les formats ou les volumes. Le but est de voir et de comprendre la nature des données avant de les manipuler.

2/ La Structuration

Re-structurez tout type de données non-structurées ou semi-structurées, que ce soit des extractions brutes des systèmes legacy, des logs, des formats hiérarchiques (XML, JSON). Le but est de créer les colonnes et les lignes de données au bon niveau d’agrégat dont vous avez besoin dans vos analyses.

3/ Le Nettoyage

Nettoyez vos données que ce soit pour des problèmes de typage de donnée ou de valeurs manquantes. Normalisez, standardisez et ajoutez  vos propres types de données afin de valider la qualité de vos données dans votre propre contexte métier. Le but est d’assurer la qualité de vos données afin de produire des analyses fiables et précises.

4/ L’Enrichissement

Enrichissez vos données en mélangeant des jeux de données provenant de différentes sources de données et avec différents types de jointures. Le but est d’enrichir vos analyses avec des données multiples et variés provenant de différentes sources métiers.

5/ La Validation

Validez vos étapes de transformation à l’échelle, c’est à dire sur l’ensemble des jeux de données. La manipulation des données et la création des scripts de transformation est effectuée de préférence de manière interactive sur des échantillons, il faut donc ensuite valider cette transformation et la qualité du résultat sur l’ensemble des données. Le but est de s’assurer de la qualité des données générées sur l’exhaustivité des jeux de données initiaux.

6/ La Publication

Publiez les résultats des transformations dans des formats accessibles aux outils d’analyse utilisés dans l’entreprise. Les ensembles de données générés peuvent être par exemple stockés dans des fichiers plats, dans des tables ou dans des formats pour des outils d’analyse. Le but est d’avoir un accès simple et transparent aux résultats depuis vos outils d’analyse prédictive, de reporting ou de visualisation de données.

Enfin si vous souhaitez aussi comprendre la différence par rapport à un ETL voici un bon article à ce sujet: https://www.decideo.fr/Quelle-est-la-difference-entre-le-data-wrangling-et-l-ETL%C2%A0_a9278.html (et sa version anglaise sur le site de Trifacta).

Voilà, vous savez donc à présent ce qu’est le Data Wrangling.

Et maintenant si vous souhaitez commencer à mettre tout cela en pratique vous pouvez télécharger notre produit gratuit Trifacta Wrangler ici.

Bon Wrangling !

Related Posts

Refining Your AWS Data Lake with Trifacta

Earlier this month, Amazon announced the general availability of the AWS Lake Formation, a fully managed... more

  |  August 23, 2019

Getting Clinical Trial Data Ready for Analysis: How IQVIA Wrangled its Way to Success

The following is a guest post from Trifacta customer, Yogesh Prasad is an Associate Director of IT at IQVIA,... more

  |  September 25, 2019

The Dos and Don’ts of Big Data Success

As a technology that bridges data storage/processing platforms with visualization tools, our team at Trifacta... more

  |  May 18, 2016