Datenstrategie statt Datensilos

Branche

Unternehmensgröße

Eingesetzte KI Fähigkeiten

Herausforderung

50 Datenquellen und keine Antwort

Ein mittelständischer Finanzdienstleister mit über 2.000 Mitarbeitenden und Kunden im gesamten DACH-Raum stand vor einem Paradox: Das Unternehmen besaß mehr Daten als je zuvor. Und konnte trotzdem keine einfache Frage beantworten. Wie viele Kunden nutzen mehr als ein Produkt? Welche Datensätze dürfen für KI-Modelle verwendet werden? Wie aktuell sind die Zahlen im Regulatory Reporting?

Die Datenlandschaft war über Jahre organisch gewachsen. Zwölf Abteilungen arbeiteten mit acht verschiedenen Datenbanksystemen, ergänzt durch Hunderte von Excel-Dateien und Schatten-IT-Lösungen. Jede Abteilung hatte ihre eigene Version der Wahrheit. Keine stimmte mit der anderen überein.

Erste KI-Initiativen waren bereits gescheitert. Nicht an der Technologie, sondern an der Datengrundlage. Ein Modell zur Kundenabwanderung lieferte unbrauchbare Ergebnisse, weil die Trainingsdaten aus drei Quellen stammten, die unterschiedliche Kundendefinitionen verwendeten. Die Compliance-Abteilung konnte nicht nachweisen, welche personenbezogenen Daten wo gespeichert waren. Und jede Auswertung, die über Standardreports hinausging, erforderte ein IT-Ticket mit drei Wochen Wartezeit.

Die Erkenntnis: Ohne eine durchgängige Datenstrategie würde jede weitere Investition in KI, Automatisierung oder Analytics ins Leere laufen.

Herausforderung

Heading

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

Lösung

Von Datensilos zum Datenökosystem. In sechs Monaten.

Datenreifegrad bestimmen

Am Anfang stand keine Technologie-Entscheidung, sondern ein Data Maturity Assessment über alle zwölf Abteilungen. PLAN D inventarisierte sämtliche Datenquellen, bewertete ihre Qualität und analysierte die tatsächlichen Nutzungsmuster. Das Ergebnis war ernüchternd und erhellend zugleich: 73 Prozent der vorhandenen Daten waren für analytische oder KI-Zwecke nicht nutzbar. Nicht wegen fehlender Technologie, sondern wegen fehlender Qualität, Struktur und Dokumentation. Dieses Assessment machte das Unsichtbare sichtbar und schuf die Grundlage für jede weitere Entscheidung.

Zielbild und Datenarchitektur entwerfen

Auf Basis des Assessments entwarf PLAN D gemeinsam mit der IT-Leitung eine domänenorientierte Zielarchitektur nach Data-Mesh-Prinzipien. Statt alle Daten in ein zentrales Data Warehouse zu pressen, erhielt jede Fachabteilung die Verantwortung für ihre eigenen Datenprodukte. Mit klaren Schnittstellen, definierten Qualitätsstandards und einem einheitlichen Zugriffslayer. Als technologische Basis fiel die Entscheidung auf die Databricks Lakehouse Platform: Sie vereint die Flexibilität eines Data Lake mit der Struktur eines Data Warehouse auf einem einzigen System. Das Tabellenformat Delta Lake sichert dabei Transaktionssicherheit und Versionierung. Der Unity Catalog liefert die zentrale Governance-Schicht für Metadaten, Zugriffssteuerung und Data Lineage.

Data Governance aufbauen

Eine Datenarchitektur ohne Governance ist ein Gebäude ohne Statik. PLAN D etablierte ein Data Governance Framework, das nicht als Dokument in der Schublade endete, sondern als gelebte Praxis in den Arbeitsalltag integriert wurde. In jeder Fachabteilung wurden Data Stewards benannt: Mitarbeitende, die Verantwortung für die Qualität, Aktualität und Vollständigkeit ihrer Datendomäne übernehmen. Ergänzt durch Data Owner auf Führungsebene und Data Engineers in der IT entstand eine durchgängige Verantwortungskette. Der Unity Catalog wurde zum Single Point of Truth für alle Metadaten: Wer hat welche Daten erstellt? Woher kommen sie? Wer darf sie nutzen? Jede Datenquelle erhielt eine dokumentierte Lineage, von der Entstehung bis zur Verwendung in Reports und Modellen.

Datenplattform implementieren

In der Implementierungsphase ging die Databricks Lakehouse Platform produktiv. Automatisierte Data Pipelines übernahmen die Integration der 50+ Datenquellen: ETL-Prozesse für Batchdaten, Change Data Capture für Echtzeitströme aus den Kernbanksystemen. Der Unity Catalog stellte sicher, dass jede Transformation nachvollziehbar blieb. Darauf aufbauend entstand ein Self-Service-BI-Layer, über den Fachabteilungen eigenständig Analysen erstellen konnten. Ohne IT-Ticket, ohne Wartezeit.

Organisation befähigen

Technologie allein verändert keine Organisation. PLAN D begleitete die Einführung mit einem Data-Literacy-Programm, das alle Hierarchieebenen einschloss. Die Data Stewards erhielten eine strukturierte Ausbildung in Datenqualitätsmanagement und Governance-Prozessen. Fachabteilungen lernten, den Self-Service-BI-Layer für eigene Analysen zu nutzen. Und die Geschäftsführung erhielt ein KI-Readiness-Assessment, das auf Basis der nun bereinigten Datenlandschaft konkrete Use Cases priorisierte. Der Startschuss für die nächste Phase.

Ergebnis

Daten verstehen. Daten nutzen. Daten steuern.

In sechs Monaten entstand aus einer fragmentierten Datenlandschaft ein durchgängiges Datenökosystem. Alle 50+ Datenquellen sind über die Lakehouse-Plattform zugänglich, im Data Catalog dokumentiert und mit vollständiger Lineage nachvollziehbar. Data Stewards in allen zwölf Abteilungen steuern die Qualität ihrer Datendomänen. Fachabteilungen erstellen eigenständig Analysen. In Minuten statt Wochen.

Das Ergebnis ist mehr als eine Plattform: Es ist die Grundlage für jede weitere KI-Initiative, für belastbares Regulatory Reporting und für eine Organisation, die erstmals ein gemeinsames Verständnis davon hat, welche Daten sie besitzt und was sie damit tun kann.

Zahlen & Fakten

6 Monate

vom Assessment bis zur produktiven Plattform

50+

Datenquellen inventarisiert und integriert

73 %

der Daten erstmals KI-ready nach Bereinigung

< 5 Min

von der Frage zum Dashboard (vorher: 3 Wochen IT-Ticket)

Techologie

So haben wir es umgesetzt

Data Lakehouse

Architekturansatz, der die Flexibilität eines Data Lake mit der Struktur und Transaktionssicherheit eines Data Warehouse auf einer einzigen Plattform vereint.

Data Mesh

Organisationsprinzip, bei dem Fachabteilungen Verantwortung für ihre Datenprodukte übernehmen. Mit definierten Qualitätsstandards und Schnittstellen.

Data Pipelines

Data Catalog & Lineage

Zentrale Metadatenverwaltung, die für jede Datenquelle Herkunft, Qualität und Nutzungshistorie dokumentiert. Der Single Point of Truth für die gesamte Datenlandschaft.

Data Governance

Framework aus Rollen, Policies und Prozessen für Datenqualität, Zugriffssteuerung und Compliance. Gelebte Praxis, nicht Dokument.

Self-Service BI

Analyseplattform, die Fachabteilungen befähigt, eigenständig Daten zu explorieren und Dashboards zu erstellen. Ohne Abhängigkeit von der IT.

Fragen & Antworten

Was ist eine Datenstrategie und wozu braucht ein Unternehmen eine?

Eine Datenstrategie definiert, wie ein Unternehmen seine Daten erhebt, speichert, verwaltet und nutzt, um aus Daten systematisch Wert zu schöpfen. Sie umfasst technische Architektur, organisatorische Verantwortlichkeiten und einen konkreten Umsetzungsplan.

Unternehmen brauchen eine Datenstrategie, sobald Daten nicht mehr nur in einzelnen Abteilungen genutzt werden, sondern unternehmensübergreifend relevant sind. Ohne Strategie entstehen Datensilos, widersprüchliche Reports und KI-Projekte, die an der Datenqualität scheitern. In der Finanzbranche kommt regulatorischer Druck hinzu: BaFin, DSGVO und EU AI Act fordern nachvollziehbare Datenflüsse und dokumentierte Datenqualität.

Was ist ein Data Lakehouse und warum ersetzt es Data Lake und Data Warehouse?

Ein Data Lakehouse vereint die Stärken beider Architekturen: die Flexibilität eines Data Lake für unstrukturierte Daten mit der Struktur und Transaktionssicherheit eines Data Warehouse für analytische Abfragen. Technisch ermöglicht das offene Tabellenformate wie Delta Lake, die ACID-Transaktionen direkt auf dem Data Lake bereitstellen.

Der Vorteil: Statt zwei getrennte Systeme zu betreiben und Daten zwischen ihnen zu kopieren, arbeiten alle Anwendungsfälle auf einer einzigen Plattform: Echtzeit-Analytics, Regulatory Reporting, Machine Learning. Das reduziert Komplexität, Kosten und das Risiko inkonsistenter Daten.

Was ist Data Governance und warum ist es für die Finanzbranche besonders wichtig?

Data Governance umfasst die organisatorischen Regeln, Rollen und Prozesse, die sicherstellen, dass Daten korrekt, vollständig, nachvollziehbar und sicher verwaltet werden. Die drei zentralen Rollen sind Data Owner (strategische Verantwortung), Data Steward (operative Datenqualität) und Data Engineer (technische Umsetzung).

In der Finanzbranche ist Data Governance kein Nice-to-have, sondern regulatorische Pflicht. Aufsichtsbehörden erwarten nachvollziehbare Datenflüsse, dokumentierte Datenherkunft und jederzeit belegbare Datenqualität. Ohne gelebte Governance riskieren Finanzdienstleister nicht nur fehlerhafte Reports, sondern auch aufsichtsrechtliche Konsequenzen.

Wie lange dauert die Entwicklung einer Datenstrategie?

Der Zeitrahmen hängt von Unternehmensgröße und Komplexität der Datenlandschaft ab. In diesem Projekt erreichten wir in sechs Monaten den vollständigen Weg vom Data Maturity Assessment bis zur produktiven Lakehouse-Plattform.

Entscheidend für die Geschwindigkeit ist kein Technologiefaktor, sondern die Bereitschaft der Organisation, Verantwortung für Daten zu übernehmen. Unternehmen, die Data Stewards frühzeitig benennen und dem Projekt Managementunterstützung geben, kommen deutlich schneller voran.

Was ist Data Mesh und ist das für den Mittelstand relevant?

Data Mesh ist ein Organisationsprinzip, bei dem die Verantwortung für Daten nicht zentral bei der IT liegt, sondern bei den Fachabteilungen, die die Daten erzeugen und am besten kennen. Jede Abteilung verantwortet ihre Datenprodukte — mit definierten Qualitätsstandards, klaren Schnittstellen und einer gemeinsamen Infrastrukturplattform.

Für den Mittelstand ist Data Mesh dann relevant, wenn das Unternehmen groß genug ist, dass zentrale Datenteams zum Flaschenhals werden. Ab etwa zehn Fachabteilungen und einer zweistelligen Zahl an Datenquellen löst die dezentrale Verantwortung ein reales Problem. Wichtig: Data Mesh bedeutet nicht Anarchie. Die technische Plattform und die Governance-Standards bleiben zentral.

Wie misst man Datenqualität?

Datenqualität wird entlang definierter Dimensionen gemessen: Vollständigkeit (fehlen Werte?), Korrektheit (stimmen die Werte?), Aktualität (wie alt sind die Daten?), Konsistenz (widersprechen sich Quellen?) und Eindeutigkeit (gibt es Duplikate?).

In der Praxis werden diese Dimensionen durch automatisierte Qualitätschecks in den Data Pipelines überwacht. Jeder Datensatz durchläuft bei der Ingestion eine Validierung. Der Data Catalog dokumentiert die Qualitätsmetriken je Datenquelle. Data Stewards überprüfen regelmäßig die Ergebnisse und eskalieren bei Abweichungen. So entsteht ein kontinuierlicher Qualitätsprozess statt einmaliger Bereinigungsaktionen.

Wie macht eine Datenstrategie ein Unternehmen KI-ready?

KI-Modelle sind nur so gut wie ihre Trainingsdaten. Eine Datenstrategie schafft die Voraussetzungen, die KI-Projekte brauchen: saubere, dokumentierte, zugängliche Daten in einem einheitlichen Format. Ohne diese Grundlage scheitern Modelle an widersprüchlichen Kundendefinitionen, fehlenden Werten oder Daten, die gar nicht verwendet werden dürfen.

Konkret liefert eine umgesetzte Datenstrategie drei Dinge: Erstens eine Plattform, auf der Daten für Training und Inference bereitstehen. Zweitens eine Governance, die klärt, welche Daten für welche Zwecke genutzt werden dürfen. Drittens ein Data Catalog, der Data Scientists Daten finden lässt, ohne jede Abteilung einzeln fragen zu müssen. In diesem Projekt waren nach der Umsetzung 73 Prozent der Daten erstmals KI-ready. Die Basis für die nächsten Projekte.

Welche Rolle spielen Data Stewards in einer Datenorganisation?

Data Stewards sind die operativen Hüter der Datenqualität in ihren Fachabteilungen. Sie stellen sicher, dass die Daten ihrer Domäne korrekt, vollständig und aktuell sind. Sie definieren Qualitätsregeln, überwachen deren Einhaltung und sind erste Ansprechpartner bei Datenqualitätsproblemen.

Im Unterschied zu Data Owners (strategische Verantwortung, meist Führungsebene) und Data Engineers (technische Umsetzung, IT) arbeiten Data Stewards direkt im Fachbereich. Sie kennen die Geschäftslogik hinter den Daten und können beurteilen, ob ein Wert nicht nur technisch valide, sondern auch fachlich korrekt ist. In diesem Projekt wurden in allen zwölf Abteilungen Data Stewards benannt und in einem strukturierten Programm ausgebildet.

Cases