Project Gallery

Data Pipeline

Einem jedem Datenprojekt unterliegen abhängig von den Datenarten in unterschiedlicher Ausprägung die verschiedenen Phasen der DataPipeline. So können in manchen Projekten, die Datenquellen bereits fest vorgegeben,strukturiert und bereinigt sein, so dass der Fokus des Projektes in erster Linie auf der Analyse und Präsentation der Daten liegt, in anderen Projekten wiederum können die Tätigkeiten mehr aus dem Identifizieren und Bewerten von möglichen Datenquellen, als auch der Datenbereinigung bestehen.

	In der Define Phase wird definiert, für welchen Zweck und in welchem Format die Daten erhoben, analysiert und präsentiert werden sollen. Zu welchen Fragen sollen die Daten Antworten geben, in welchem Kontext und von welchen Benutzern werden sie angewandt? In welchem Zeitrahmen und mit welcher Regelmäßigkeit sollten die Daten erhoben werden? Wie detailliert und umfangreich sollten die erhobenen Daten sein? Ist es z.B. ausreichend nur den Text eines Facebook Posts zu erfassen oder sollte auch die Anzahl Likes und die Kommentare gescrapt werden?
	In der Find Phase wird eine Daten-Bestandsanalyse durchgeführt, in der alle mögliche Datenquellen, die von Relevanz sein könnten identifiziert werden. Dabei können die gleichen Daten in unterschiedlichen Datenquellen auftreten. Um diese zu priorisieren, werden die Datenquellen auf ihre Qualität (Vollständigkeit, Richtigkeit, Aktualität, Form, Maschinenlesbarkeit, Urheberrecht, etc.) überprüft. Ausgehend von diesen Qualitätskriterien kann der Arbeitsaufwand für die Datenerhebung und die Validität der finalen Daten eingeschätzt werden.
	In der Get Phase werden die Daten erhoben. Hierzu können je nachdem in welcher Form die Daten vorliegen,verschiedene Erhebungs-Methoden eingesetzt werden. So können die Daten z.B. direkt aus relationalen Datenbanken gelesen werden, von Webseiten gescrapt, per API erfaßt oder in Form von Fragebögen erhoben werden. Die erhobenen Daten können in Form von Textdateien, Spreadsheets, JSON Dateien oder in Datenbanken zur Weiterverarbeitung gespeichert werden.
	In der Verify Phase wird genauer untersucht inwieweit die erhobenen Daten den Anforderungen der darauf folgenden Datenanalyse und Datenpräsentation entsprechen. Hiervon kann abgeleitet werden, welche Tätigkeiten im Weiteren notwendig sind, um die Daten zu bereinigen.
	In der Clean Phase werden die Daten bereinigt. In strukturierter Form können sie in einheitliche Formate (z.B. Datumsformate) umgewandelt werden. Regex kann eingesetzt um aus Texten bestimmte detailliertere Informationen herauszulesen. Des Weiteren können kontrollierte Vokabulare entwickelt und/oder genutzt werden, um Dokumente zu kategorisieren bzw. zu beschlagworten.
	In der Analyze Phase werden die Daten quantitativ analysiert.
	In der Present Phase werden die Daten in ihrer finalen Form für den Endbenutzer in verständlicher Form aufbereitet. Die Daten können z.B. als regelmäßiger Datenservice in Webseiten eingebunden werden, in Dashboards zur Kontrolle eingesetzt werden, oder aber auch die Grundlage für Data Stories und News bilden. Des Weiteren werden sie in PPT Präsentationen oder Doc Berichten genutzt. Bei der Visualisierung der Daten ist insbesondere darauf zu achten, dass die Erkenntnisse aus den Daten deutlich hervorgehoben und durch die Art der Visualisierung Aussagen nicht verfälscht werden.

Data Initiatives

Innerhalb von Data Initiatives werden Projekte zu einem Themenfeld und mit ähnlichen Daten zusammengefaßt“. Wie im Beispiel der Initiative “Wahlen 2017” erläutert, bauen die Projekte oft auf die Daten-Ergebnisse anderer Projeke der selben Initiative auf.

Initiative: First Slide Previous Slide Next Slide

Data Projects

In unserer Project Gallery veröffentlichen wir alle Projekte des DataLabs. Die Phasen der Data Pipeline werden unterschiedlich stark in den Projekten fokussiert. Projekte können in Form von Seminaren, Bachelor-, Masterarbeiten, als auch Forschungsprojekten Wählen Sie als Initiative “Wahlen 2017” aus, um sich alle Projekte anschauen zu können, die zu dieser Initiative durchgeführt worden sind.

Initiative / Partner	Title	Data	Project Type	Semester	Students	Advisors	Status
Wahlen 2017	First analysis of parties web strategy, scraping of parties’ press releases and detailed information on politicians	websites	Class: DataCollection	17.1SS17	16 students	Glissmann (HAW)	started
Wahlen 2017	Creation of a political topic vocabulary for the automatic Identification	facebook posts, political news	Class: TextMining	17.1SS17	45 students	Glissmann (HAW)	started
Wahlen 2017	Insights about Politicians auxiliary incomes			17.1SS17		Hochstein (HTW)	started
Wahlen 2017	Contributions of Politicians and their interactions at the Plenary Sessions	Plenary meeting minutes (PDF)	Data Project	17.1SS17	3 students	Hochstein (HTW)	started
Wahlen 2017	Insights extracted from Politicians’ and Parties’ facebook posts	facebook posts	Data Project	17.1SS17	3 students	Hochstein (HTW)	started
Wahlen 2017	Parties’s Webstrategies	facebook posts, tweets, websites	Master Thesis	17.1SS17	Kristina Bossar	Glissmann (HAW), Hekele (AW)	planned
Wahlen 2017	Erhebung einer politischen Datenlandschaft & Entwicklung eines neuen Data Services	Abstimmungsdaten der Politiker	Reasearch Project	16.2WS16	Meike Röttjer	Glissmann, Spree (HAW)	started
DataLab	Daten-Journalistische Nachrichten für den Hamburger Raum - Bestandsanalyse von Open Data und datenjournalistischen Nachrichten im In- und Ausland mit Empfehlungen zu einem Data News Konzept für den Hamburger Raum	Open Data	Research Project	16.2WS16	Roman Azadzoy	Glissmann, Burkhardt (HAW)	started
Polizei Hamburg	Erfolgreiche Kommunikation im Web - Konzeption einer ganzheitlichen Social-Media-Strategie für die Polizei Hamburg	facebook posts	Research Project	16.2WS16	Kristina Bosslar	Glissmann (HAW), Zill (Polizei HH)	completed
DataLab	Prototypical development of an interactive learning environment for data science education using Python	Class assignment data	Bachelor Thesis	16.2WS16	Lars Ullrich	Glissmann, Büschenfeldt (HAW)	started
DataLab	Von der Selbstregulation zur Motivation? - Konzeption einer auf Python basierenden Vergleichbarkeitsanalyse zur automatischen Auswertung von Aufgabenergebnissen einer Online-Lernplattform	Class assignment data	Bachelor Thesis	16.2WS16	Inga Vater	Glissmann, Büschenfeldt (HAW)	started
DataLab	Digital Profiler - Textmining von Stellenbeschreibungen mit dem Ziel Kompetenzen für Berufsfelder zu bestimmen und mit persönlichen Profilen abzugleichen	Job postings	Project	16.2WS16	13 students	Glissmann	completed
DataLab	Berufliche Kompetenzen in Online-Stellenausschreibungen - Entwicklung einer Methode zur automatischen Identifizierung von Kompetenzen mit der Programmiersprache Python	Job postings	Bachelor Thesis	16.1SS16	Kathrin Wardatzky	Glissmann, Büschenfeldt (HAW)	completed
Women in STEM	Frauen in MINT-Berufen - Einflussfaktoren auf die Berufswahl von Schülerinnen und Schülern in Deutschland im Vergleich zu den USA	Questionnaire	Master Thesis	16.1SS16	Tanja Drozdzynski	Glissmann, Burkhardt (HAW)	completed
Women in STEM	Computer Science Education	Questionnaire	Class: Data Visualization	16.1SS16	12 students	Glissmann (HAW)	completed