Data Pipeline

Einem jedem Datenprojekt unterliegen abhängig von den Datenarten in unterschiedlicher Ausprägung die verschiedenen Phasen der DataPipeline. So können in manchen Projekten, die Datenquellen bereits fest vorgegeben,strukturiert und bereinigt sein, so dass der Fokus des Projektes in erster Linie auf der Analyse und Präsentation der Daten liegt, in anderen Projekten wiederum können die Tätigkeiten mehr aus dem Identifizieren und Bewerten von möglichen Datenquellen, als auch der Datenbereinigung bestehen.

In der Define Phase wird definiert, für welchen Zweck und in welchem Format die Daten erhoben, analysiert und präsentiert werden sollen. Zu welchen Fragen sollen die Daten Antworten geben, in welchem Kontext und von welchen Benutzern werden sie angewandt? In welchem Zeitrahmen und mit welcher Regelmäßigkeit sollten die Daten erhoben werden? Wie detailliert und umfangreich sollten die erhobenen Daten sein? Ist es z.B. ausreichend nur den Text eines Facebook Posts zu erfassen oder sollte auch die Anzahl Likes und die Kommentare gescrapt werden?
In der Find Phase wird eine Daten-Bestandsanalyse durchgeführt, in der alle mögliche Datenquellen, die von Relevanz sein könnten identifiziert werden. Dabei können die gleichen Daten in unterschiedlichen Datenquellen auftreten. Um diese zu priorisieren, werden die Datenquellen auf ihre Qualität (Vollständigkeit, Richtigkeit, Aktualität, Form, Maschinenlesbarkeit, Urheberrecht, etc.) überprüft. Ausgehend von diesen Qualitätskriterien kann der Arbeitsaufwand für die Datenerhebung und die Validität der finalen Daten eingeschätzt werden.
In der Get Phase werden die Daten erhoben. Hierzu können je nachdem in welcher Form die Daten vorliegen,verschiedene Erhebungs-Methoden eingesetzt werden. So können die Daten z.B. direkt aus relationalen Datenbanken gelesen werden, von Webseiten gescrapt, per API erfaßt oder in Form von Fragebögen erhoben werden. Die erhobenen Daten können in Form von Textdateien, Spreadsheets, JSON Dateien oder in Datenbanken zur Weiterverarbeitung gespeichert werden.
In der Verify Phase wird genauer untersucht inwieweit die erhobenen Daten den Anforderungen der darauf folgenden Datenanalyse und Datenpräsentation entsprechen. Hiervon kann abgeleitet werden, welche Tätigkeiten im Weiteren notwendig sind, um die Daten zu bereinigen.
In der Clean Phase werden die Daten bereinigt. In strukturierter Form können sie in einheitliche Formate (z.B. Datumsformate) umgewandelt werden. Regex kann eingesetzt um aus Texten bestimmte detailliertere Informationen herauszulesen. Des Weiteren können kontrollierte Vokabulare entwickelt und/oder genutzt werden, um Dokumente zu kategorisieren bzw. zu beschlagworten.
In der Analyze Phase werden die Daten quantitativ analysiert.
In der Present Phase werden die Daten in ihrer finalen Form für den Endbenutzer in verständlicher Form aufbereitet. Die Daten können z.B. als regelmäßiger Datenservice in Webseiten eingebunden werden, in Dashboards zur Kontrolle eingesetzt werden, oder aber auch die Grundlage für Data Stories und News bilden. Des Weiteren werden sie in PPT Präsentationen oder Doc Berichten genutzt. Bei der Visualisierung der Daten ist insbesondere darauf zu achten, dass die Erkenntnisse aus den Daten deutlich hervorgehoben und durch die Art der Visualisierung Aussagen nicht verfälscht werden.

Data Initiatives

Innerhalb von Data Initiatives werden Projekte zu einem Themenfeld und mit ähnlichen Daten zusammengefaßt“. Wie im Beispiel der Initiative “Wahlen 2017” erläutert, bauen die Projekte oft auf die Daten-Ergebnisse anderer Projeke der selben Initiative auf.

  

Data Projects

In unserer Project Gallery veröffentlichen wir alle Projekte des DataLabs. Die Phasen der Data Pipeline werden unterschiedlich stark in den Projekten fokussiert. Projekte können in Form von Seminaren, Bachelor-, Masterarbeiten, als auch Forschungsprojekten Wählen Sie als Initiative “Wahlen 2017” aus, um sich alle Projekte anschauen zu können, die zu dieser Initiative durchgeführt worden sind.