Die Datenfabrik

Automatisierte und individuelle Datenauswertung in der Verwaltung

Die Datenfabrik ist eine Plattform, die es Fachbereichen in der Verwaltung ermöglicht, in kurzer Zeit passgenaue datenbasierte Lösungen umzusetzen – etwa automatisierte Berichte, Dashboards oder standardisierte Datenschnittstellen.

Einmal eingerichtet, werden Daten automatisiert verarbeitet: Ändern sich die Daten, stehen aktualisierte Ergebnisse ohne manuelle Zwischenschritte sofort zur Verfügung. Das macht die Datenfabrik besonders relevant für alle Bereiche, in denen regelmäßig Daten ausgewertet, berichtet oder weitergegeben werden.

Was dahinter steckt

Die Datenfabrik ist keine einzelne Anwendung, sondern ein Sammlung von Open-Source-Anwendungen, die für eine nahtlose Zusammenarbeit vorkonfiguriert sind. Zu den Tools gehören u.a. Apache Airflow, Apache Superset, PostgreSQL/CloudNativePG, MinIO, Keycloak und Cadenza. Die Plattform vermeidet Herstellerabhängigkeiten und ermöglicht eine offene Weiterentwicklung, auch unter Einbindung selbst gewählter externer Dienstleister.

Die Plattform stellt wiederverwendbare Grundfunktionen bereit, etwa für Datenimport, -verarbeitung, -speicherung, Berechtigungen, Schnittstellen und Visualisierung (z. B. ETL-Verarbeitung, relationale und objektbasierte Persistenz, OIDC-basierte Authentifizierung). Damit bildet sie eine technische Basis für unterschiedlichste Use-Cases in der Verwaltung. Unterschiedliche Datenquellen wie Open Data, Fachverfahren oder externe Schnittstellen können angebunden werden, unabhängig vom Format oder der Art der Bereitstellung (z. B. Dateien, relationale Datenbanken oder API-basierte Anbindungen). Die Datenfabrik ist darauf ausgelegt, eine sehr große Bandbreite an Datenformaten zu verarbeiten und Ergebnisse für verschiedene Weiterverwendungen von automatisierten Datenausgaben bis hin zu Self-Service-Berichten bereitzustellen.

Der Betrieb erfolgt zentral; für die nutzenden Stellen entstehen keine Betriebsverantwortung und keine Betriebskosten.

So entstehen Use-Cases auf der Datenfabrik

Fachbereiche können ihre Daten als Datei-Upload, über bestehende Schnittstellen oder automatisiert aus Fachverfahren (z. B. Datei-Import oder API-Zugriff) in die Datenfabrik einbringen. Die einmalige, use-case-spezifische Datenaufbereitung (Datenpipeline) wird i.d.R. durch einen Dienstleister umgesetzt (z. B. Transformation und Orchestrierung mit Apache Airflow, Speicherung in PostgreSQL oder Object Storage). Auf dieser Basis können die Fachbereiche ihre Auswertungen anschließend flexibel weiterentwickeln: Berichte, Dashboards und Datenprodukte lassen sich im Self-Service anpassen und kombinieren (ohne erneute Implementierung der Datenpipeline). Dabei stehen in der Datenfabrik gemeinsame Querschnittsfunktionen wie eine zentrale Authentifizierung über OIDC zur Verfügung.

Mehrwert gegenüber dem Status quo

Heute dominieren oft herstellerabhängige Einzellösungen mit begrenzten Auswertungsmöglichkeiten in Fachverfahren. Eine Kopplung von Systemen ist nicht selten aufwendig und unflexibel. Die Datenfabrik adressiert dieses Problem: Sie bietet eine flexible Basis, auf der Fachbereiche ihre datengetriebenen Anwendungsfälle nachhaltig aufbauen können – von der ersten Auswertung bis zur dauerhaft betriebenen Lösung. Und das einsetzbar in offenen wie auch abgesicherten Betriebsumgebungen.