Mit der Verbreitung von Big-Data-Frameworks wie Hadoop wächst das Interesse der Anwender an der Frage, wie man die Hadoop Platformzur Datenanalyse nutzen kann. Im Fokus steht dabei die Aufbereitung der Rohdaten, auch Data-Wrangling genannt. Vielen gilt diese kritische, aber auch mühsame und zeitraubende Vorarbeit als niederer „Putzjob“, als langweilige Aufwärmübung vor der eigentlichen Suche nach […]
More Helmut Plinke • May 28, 2019 Von den Rohdaten zur Analyse: Vielleicht haben Sie den Ausdruck Data-Wrangling in diesem Kontext schon gelesen. Doch wofür steht er? Data-Wrangling, auch Datenaufbereitung genannt, bezeichnet den Prozess vom Sondieren der Rohdaten über deren Strukturierung, Bereinigung, Anreicherung und Validierung bis zur Ausgabe in einem Format, das sich inhaltlich auswerten oder zur Modellierung in ML-Systemen einsetzen lässt. […]
More Helmut Plinke • May 20, 2019