Blog Subscription Form

 

Permettre à chacun d’être un Data Wrangler

Explorer vous-même et transformer tous les types de données comme vous ne l’auriez jamais cru possible auparavant.

REGARDER LA VIDÉO

Qu’est-ce que le Data Wrangling?

Le volume de données explose de part le monde et ce n’est pas un secret que les entreprises qui sont en mesure d’en extraire une valeur ajoutée et d’innover grâce à ces données réussissent mieux que les autres. Toutefois, petites et grandes entreprises rencontrent des difficultés importantes pour utiliser et analyser ces données dû à leur volume et complexité. En effet, le travail de conversion des données brutes en un format adapté pour l’analyse consomme jusqu’à 80% du temps.

Une analyse réussie, repose sur des données exactes, bien structurées, qui ont été formatées au préalable pour des besoins spécifiques. Le Data Wrangling correspond à ce travail indispensable de conversion des données sources à l’état brut en des données propres et utilisables à des fins d’analyse.

Aperçu Solution

“Data Wrangling”, la clé pour libérer le potentiel de  votre Big Data

Télécharger Maintenant

Fiche Produit

Permettre à chacun d’être un Data Wrangler

Télécharger Maintenant

Fiche Produit

Trifacta pour Hadoop

Télécharger Maintenant

Que fait Trifacta?

Trifacta est une entreprise spécialisée dans le développement de logiciels qui aident les particuliers et les entreprises à libérer le potentiel de leurs données en fournissant une nouvelle approche d’exploration et de préparation de données à des fins d’analyse. Que ce soit pour améliorer l’efficacité d’un processus d’analyse existant ou pour utiliser de nouvelles sources de données pour un projet analytique, les solutions de Data Wrangling de Trifacta vous permettent d’obtenir davantage de vos données quel qu’en soit la forme ou la taille.

Accélère la manipulation et la préparation de données variées directement sur votre poste de travail. Offre totalement gratuite.

  • Explore et structure des données complexes telles que des fichiers textes, logs ou JSON.

  • Effectue des recommandations intelligentes pour nettoyer les données et les structurer.

En Savoir Plus

Solution départementale avancée de préparation de données en libre-service.

  • Plate-forme partagée pour la préparation de données.

  • Automatise les opérations de Data Wrangling (manipulation des données) pour des jeux de données variés.

En Savoir Plus

Permet aux équipes d’analystes d’explorer et de transformer des volumes importants de données, dans un environnement maîtrisé et sécurisé.

  • Supprime les problématiques de dépendance organisationnelle avec les équipes techniques pour préparer les données.

  • Etablis une gouvernance collaborative et une transparence des processus d’utilisation des données.

En Savoir Plus

Processus de Data Wrangling avec Trifacta

Découvrir
Structurer
Nettoyer
Enrichir
Valider
Publier

Découvrir La découverte exacte de la composition de vos données et de leur potentiel d’utilisation pour différentes analyses est absolument essentiel pour connaître leur valeur et savoir comment pouvoir les utiliser. Ce processus d’exploration permet d’obtenir une compréhension claire des éléments qui composent les données telles que la distribution des valeurs, les valeurs extrêmes ou les anomalies afin d’aiguiller précisément le processus de transformation et d’analyse.

Structurer La structuration est nécessaire car chaque donnée peut avoir une forme et une taille différentes. Les données non appréhendables par l’oeil humain sont extrêmement difficiles à manipuler avec des solutions traditionnelles. Et même bien structurés, les jeux de données n’ont souvent pas la forme adéquate ou le niveau d’agrégation requis pour une analyse effective.

Nettoyer Le nettoyage implique d’enlever les valeurs qui pourraient fausser l’analyse. Une valeur nulle, par exemple, peut avoir un impact inattendu et il est préférable de la remplacer par un zéro ou une chaîne vide. Certains champs devraient être normalisés en remplaçant les différentes formulations par des valeurs consistantes, par exemple FR, fr, France, Français pourraient être standardisés en FR.

Enrichir L’enrichissement permet de tirer parti du travail de préparation déjà réalisé en amont pour se poser de nouvelles questions: “Maintenant que mes données ont un sens, quelles autres données pourraient être utiles à cette analyse ?” En d’autres termes, l'enrichissement est souvent réalisé en combinant de nouvelles données ou en calculant des dérivations complexes. Par exemple une donnée de vente pourrait être enrichie avec le profile du client, ses habitudes et son historique d’achat.

Valider La validation est l'activité qui permet de mettre en exergue les problèmes de qualité et de consistance des données et de vérifier que ces problèmes ont été correctement adressés. La validation doit être réalisée sur différents plans. Au minimum, valider que les valeurs respectent des contraintes syntactiques ou de distribution.

Publier La publication est l’action de planifier et de délivrer le résultat d’un travail de Data Wrangling pour les besoins avals d’une initiative métier, tel que charger les données dans un entrepôt de données ou encore pour les besoins d’un algorithme de prédiction d’achat. Les outils de Business Intelligence améliorent substantiellement leurs performances lorsqu’ils s’appuient sur des données propres et bien structurées.

Trifacta pour qui?

Restez au courant des dernières activités autour de Trifacta

Dernières infos

Comment Trifacta fonctionne?

Trifacta se situe entre la couche de stockage et traitement de données et les outils de visualisation, statistique ou de machine learning utilisés en aval dans le processus d’analyse.  Notre solution est conçue pour les analystes de données afin de les aider à effectuer le travail de préparation sans avoir à écrire manuellement des lignes de code ou à utiliser des systèmes complexes à base de  règles et de flux de données (mapping).

Avec Trifacta, les utilisateurs peuvent visualiser le contenu de leurs données et interagir avec le contenu grâce à un procédé appelé “Transformation Prédictive” qui permet de suggérer  les logiques de transformation sur l’ensemble des données. Ces logiques peuvent être appliquées sur votre poste de travail ou sur un cluster Hadoop utilisant une infrastructure de calcul distribués Spark ou MapReduce. Préalablement à l’exécution des transformations, l’utilisateur définit le format et l’emplacement souhaité pour le traitement et le stockage de la donnée finale nettoyée et structurée.

Trifaca nous a amené à un niveau de productivité entièrement nouveau concernant la manière dont les analystes collaborent avec le département Informatique pour explorer diverse données et définir les besoins d’analyse.

Découvrez une nouvelle approche pour l'évaluation et la préparation de données variées à des fins l'analyse
Télécharger Trifacta Wrangler dès maintenant