Umfrage: Datenvalidierung per Schema Validator

Eure Meinung ist gefragt!

Von Julia Zimmermann – 30. Oktober 2023

Wir benötigen Eure Hilfe! Ihr kennt Euch mit der Veröffentlichung von Daten in Berlin aus, habt eine starke Meinung zum Thema, Anregungen oder Hinweise? Dann schaut Euch unseren Schema Validator Klickdummy an und nehmt an unserer Typeform-Umfrage teil.

Was ist der Public Pitch?

Als Innovationslabor für die Stadt Berlin liegen uns die Stimmen aus der Stadtgesellschaft und Verwaltung am Herzen. Wir wollen nutzer:innenzentrierte Prototypen entwickeln, die echte Probleme lösen. Der Public Pitch ist ein neues Format des CityLAB-Prototyping-Teams, das uns in unserem Vorhaben unterstützt. Sein Ziel besteht darin, Hypothesen und Lösungsansätze durch eine breite Beteiligung der Öffentlichkeit zu validieren. Dieser Ansatz ermöglicht es uns, noch bevor wir technische Prototypen entwickeln, den Blickwinkel der Nutzer:innen zu verstehen und somit eine genauere Ausrichtung auf ihre Bedürfnisse zu gewährleisten.

Unser erster Public Pitch befasst sich mit einer Idee, wie man Daten, die im Microsoft Excel-Format vorliegen, anhand einer zusätzlichen Schema-Datei auf Validität überprüfen und damit Fehler frühzeitig erkennen und beheben kann. Wir freuen uns über Feedback zur Idee, dem Klickdummy-Prototypen und würden uns freuen, wenn Ihr an der Typeform-Umfrage teilnehmt!


Worum geht es?

Die zehn Berliner Senatsverwaltungen veröffentlichen jährlich eine Vielzahl offener Datensätze zu Themen wie Stadtentwicklung, Energie, Umwelt und Gesundheit. Bei umfangreicheren und bedeutenden Datensätzen, wie etwa dem Baumkataster oder der Einwohnerstatistik, unterliegt der Veröffentlichungsprozess strengen Regularien und wird von Datenbeauftragten in den jeweiligen Behörden betreut. Diese Beauftragten gewährleisten, dass die veröffentlichten Daten im richtigen Format (z. B. CSV, JSON usw.) vorliegen und regelmäßig aktualisiert werden.

Kleinere, oft lokalbezogene Datensätze wie beispielsweise Informationen zu Weihnachtsmärkten oder kulturelle Daten werden häufig direkt von den Fachreferenten der Bezirke veröffentlicht. Diese Fachreferenten sind zwar inhaltlich versiert, wenn es um die Daten geht, verfügen jedoch mitunter über begrenzte Datenkompetenz. Dies hat zur Folge, dass bezirksbezogene Datensätze in unterschiedlichen Formaten und mit unterschiedlichen Schreibweisen veröffentlicht werden, obwohl sie letztendlich dieselben Daten repräsentieren. Die Validierung dieser Daten erfolgt entweder gar nicht oder oberflächlich, was die Nutzung und Interpretation erheblich erschwert.

Ein möglicher Lösungsansatz besteht darin, die Daten vor der Veröffentlichung einer Validierung zu unterziehen. Dies könnte mithilfe von sogenannten Schemas erfolgen, bei denen sowohl die Struktur (Spalten, Datentypen, Grenzwerte usw.) als auch der Inhalt (Schreibweisen, Ausreißer usw.) der Daten überprüft werden können. Eine Vorabvalidierung der Daten vor der Veröffentlichung würde die Nutzung der Daten in ganz Berlin erheblich vereinfachen.


Die Idee: Der Schema Validator

Unser Prototyping-Team hat den „Schema Validator“ entwickelt, um die Möglichkeiten der Datenvalidierung zu erkunden, Hindernisse zu identifizieren und die Bedeutung einer Datenkonvertierung in ein anderes Format zu ermitteln.

Dieser Prototyp stellt eine Web-Anwendungsidee dar, die dazu dienen soll, Struktur- und Inhaltsfehler zu erkennen und zu beheben. Mit dieser Anwendung können Daten sowohl anhand eines vorgegebenen Schemas validiert werden als auch ohne ein festgelegtes Schema. Ein Lösungs-Assistent steht zur Verfügung, der durch anschauliche Fehlermeldungen bei der Fehlerbehebung unterstützt.

Die Vorgehensweise ist wie folgt: Sowohl Excel-Datei (Daten) als auch das dazugehörige Schema (Struktur) können über drag & drop im Browserfenster hochgeladen werden (Anmerkung: die Überprüfung findet auf dem Computer der Nutzer statt und ist damit datenschutzkonform). Ist keine Schema-Datei vorhanden, kann natürlich nicht gegen ein solches geprüft werden, eine intelligente Analyse der Daten kann aber auch ohne sie Muster erkennen und auf Abweichungen und Fehler hinweisen. Im nächsten Schritt können Anwender:innen ihre (lokale) Excel-Datei auf die gefundenen Probleme überprüfen und diese bei Bedarf korrigieren. Der Prozeß kann nun so oft wiederholt werden, bis die Daten den gewünschten Anforderungen entsprechen.

Als zusätzliches Feature ermöglicht der Schema Validator, die hochgeladenen Daten wahlweise als CSV oder JSON Datei zu exportieren und eine Schema-Datei basierend auf dem Datensatz zu generieren, die für die weitere Verwendung als Vorlage dienen kann.

Bitte klicke auf das Vorschaubild unten oder den entsprechenden Button, um eine kurze Demonstration der Funktionsweise zu sehen. Im Anschluß würden wir uns freuen, wenn Du an der Umfrage zum Thema teilnimmst.

Vielen Dank!

Wir möchten von Euch wissen, wie sinnvoll Ihr unseren Lösungsansatz findet und haben eine Umfrage für Euch erstellt.

Eure Antworten helfen uns beim Problemverständnis und werden anonym ausgewertet.
Wir Danken für Eure Teilnahme!