Start Wrangling

Speed up your data preparation with Trifacta

Free Sign Up
Trifacta Ranked #1 in Data Preparation Market Study

Dresner Advisory Services study reviews and ranks 24 vendors

Get the Report
Schedule a Demo

Comment bien choisir sa solution de Préparation de Données ?

May 7, 2018

Dans mon  article précédent j’expliquais ce qu’est le Data Wrangling, on peut alors maintenant se demander comment choisir une solution de Data Wrangling ou de Préparation de données ?

Premièrement, depuis maintenant plus de 4 ans les analystes ont reconnu le besoin et un marché à part entière pour les solutions de préparation de données. La tendance s’accélère maintenant et les analystes tels que Gartner anticipent qu’à échéance 2020, plus de 50% des nouveaux projets d’intégration de données utiliseront une solution de préparation de données.

Ci-joint une liste d’études disponibles pour se faire une idée du marché et des solutions existantes:

Nous le voyons également en France depuis un peu plus d’un an par l’adoption d’une solution de préparation de données par un grand nombre d’entreprises.

Des RFI et RFP sont maintenant complètement dédiés à ce sujet, et toutes les grandes entreprises commencent à évaluer ou à étudier ce nouveau “type” de solution indispensable à leur évolution et à leur stratégie “data driven”.

Alors comment choisir et évaluer les solutions de préparation de données ?

Voici un ensemble de questions qu’il est primordial de se poser avant toute évaluation et avant tout choix. Les réponses seront la clé pour vous guider dans le choix d’une solution:

Qui :  À qui va s’adresser la solution de préparation de données ?

  • Aux équipes IT et Big Data pour explorer, nettoyer et transformer plus rapidement les données brutes chargées dans des environnements Hadoop ou Cloud. Aux analystes métiers (avec essentiellement des compétences BI, ou Excel) pour être plus autonomes et éviter les échanges longs et frustrants avec les équipes IT afin d’obtenir les bonnes données au bon format pour leurs analyses. Et ainsi supprimer les étapes de spécification et éviter aussi le “shadow IT” avec la multiplication des fichiers Excel ou de bases de données Access locales.
  • Aux data scientists pour préparer les données avant les processus de modélisation et d’apprentissage des modèles prédictifs. Et ainsi être plus productif et passer plus de temps sur les algorithmes et l’optimisation des modèles et moins de temps sur l’étape fastidieuse de nettoyage et de préparation des données nécessaire à tout projet d’analyse prédictive.
  • Est-ce un choix transverse à l’entreprise pour différents départements et différents types de profils et d’équipes ?
  • Quels sont les projets et objectifs métiers des besoins de préparation de données ? Pour de nouvelles initiatives que vos technologies actuelles ne peuvent pas couvrir ou seraient incapables de réaliser dans des délais raisonnables ?

Pourquoi : Quels sont les formats des données et où sont stockées les données que l’on doit préparer ?

  • Les données sont-elles structurées (fichiers textes, CSV, Excel, tables …), non structurées (images, vidéos, PDF) ou semi-structurées (fichiers logs, JSON, XML …) ?
  • Avez-vous des problèmes d’inconsistance de données provenant de différents systèmes d’information ?
  • Ces données sont-elles stockées sous la forme de fichiers (interne ou externe) ou de tables de bases de données ?
  • L’entrepôt de stockage est-il constitué de bases de données (relationnelles ou NoSQL), de cluster Hadoop ou d’environnements Cloud (Amazon AWS, Microsoft Azure, Google Cloud) ?
  • Est-ce qu’il y a des besoins d’intégrer des données externes (data onboarding), provenant de partenaires ou de clients, sur lesquelles les utilisateurs n’ont pas la main sur les formats et la qualité des données reçues ?

Comment : Quel sont les besoins de transformation de données et sous quelle forme veut-on effectuer ces transformations ?

  • Les besoins et fonctions de transformation sont-ils simples (filtre, jointure, agrégats) ou plus complexes (détection de patterns, pivots, agrégats dans des fenêtres de temps…) ?
  • Veux-t-on effectuer ces transformations à l’aide de scripts avec un langage de développement (SQL, R, Python, Scala…), avec une interface contenant seulement des workflows comme dans l’outil ETL ou avec une interface intuitif “à la Excel” où l’on voit les données et le résultat des transformations en direct ?
  • A-t-on besoin de flexibilité et d’agilité dans les processus de transformation, avec des besoins qui sont ad-hoc ou qui évoluent régulièrement ? Ou est-ce que ces besoins ne varient pas souvent une fois développés et mis en production ?
  • Veux-t-on être guidé lors de la préparation des données avec des suggestions et recommandations automatiques de transformation suivant les interactions avec les données ?

Quand : Pour quelle échéance et dans quel contexte se trouve le choix de la solution ?

  • Est-ce un choix d’outils pour un projet précis avec un besoin à court terme ?
  • Est-ce un choix groupe qui doit s’inscrire dans la durée ?
  • Est-ce un choix s’inscrivant dans une démarche “best of breed” avec une architecture à base du meilleur des technologies avec des briques fonctionnelles pas trop dépendantes qui peuvent évoluer ou être changées si besoin ? Voir ici un article à ce sujet.

Voilà, c’est donc une liste de questions ouvertes auxquelles il faut prendre soin de répondre avant de choisir sa solution de préparation de données.

Et si on ne connaît pas la réponse à toutes les questions, le mieux est encore d’essayer par soi même ou de demander à des spécialistes comme Trifacta pour cadrer ses besoins.

Bon choix et bonne préparation de données !

Related Posts

Four Steps to Take After Training Your Model: Realizing the Value of Machine Learning

So, you have successfully trained a machine learning model after choosing the best algorithm and... more

  |  May 9, 2019

Wrangling Big, Diverse Data in Government

The following is a guest blog post from Nate Ashton, Director of Accelerator Programs at Dcode. It’s no... more

  |  March 12, 2019

Data Preparation Best Practices for Snowflake’s Cloud Data Warehouse

Snowflake is known for their separation of storage and compute, which makes scaling data more efficient.... more

  |  October 1, 2019