
Quelle: 2022 Universität Erlangen
Problemstellung
Offene Daten existieren in den unterschiedlichsten Formaten und sind häufig schlecht definiert. Vor ihre Verwertung ist ein arbeits- und kostenintensiver Daten-Engineering-Prozess geschaltet. Statt Nutzer und Nutzerinnen den Daten-Engineering-Prozess individuell durchführen zu lassen, wäre es besser, dies gemeinschaftlich in einem Open-Source-Projekt zu tun. Dazu fehlt aber eine Modellierungssprache mit Ausführungsumgebung für Daten-Pipelines. Daten-Pipelines sind Verfahren, bei denen Rohdaten aus verschiedenen Quellen aufgenommen und zur Analyse in einen Datenspeicher portiert werden.
Projektziel
Wir wollen eine Modellierungssprache für Daten-Pipelines, einen Compiler und eine Laufzeitumgebung entwickeln. Der Compiler liest Dateien, analysiert den Code übersetzt ihn in ein für die Zielplattform geeignetes Format. Mit Hilfe der Laufzeitumgebung können die Pipelines ausgeführt werden. Die Modellierungssprache muss eine textuelle Syntax haben, so dass interessierte Parteien über etablierte Open-Source-Infrastruktur gemeinschaftlich an Pipeline-Modellen arbeiten können.
Durchführung
Dazu werden wir (1) eine Modellierungssprache definieren, (2) einen Compiler entwickeln, und ein (3) Laufzeitsystems entwickeln, welches vom Compiler instrumentiert wird, um eine ausführbare Pipeline zu erhalten. Wir werden (4) mittels studentischer Projekte zu Mobilitätsdaten demonstrieren, dass die Pipeline-Modelle auf Basis unserer Sprache gemeinschaftlich entwickelt werden können.
Verbundkoordinator | Professur für Open-Source-Software, Friedrich-Alexander-Universität Erlangen-Nürnberg • FKZ: 19F1133A |
Projektvolumen | 83.333 € (davon 100% Förderung durch BMDV) |
Projektlaufzeit | 11/2022 – 10/2023 |
Projektpartner | - |
Ansprechpartner | Professur für Open-Source-Software Prof. Dr. Dirk Riehle Telefon: +49 9131 85 28390 E-Mail: dirk.riehle@fau.de |