PLAN D Logo

Datenstrategie für die Finanzbranche: Von 50 Datenquellen zur KI-fähigen Lakehouse-Plattform

Wie ein mittelständischer Finanzdienstleister mit über 50 Datenquellen und fragmentierter Datenlandschaft in sechs Monaten eine durchgängige Datenstrategie erhält. Inklusive Data Governance, Databricks Lakehouse und Self-Service-Analytics.
PLAN D Logo
Herausforderung

50 Datenquellen und keine Antwort

Ein mittelständischer Finanzdienstleister mit über 2.000 Mitarbeitenden und Kunden im gesamten DACH-Raum stand vor einem Paradox: Das Unternehmen besaß mehr Daten als je zuvor. Und konnte trotzdem keine einfache Frage beantworten. Wie viele Kunden nutzen mehr als ein Produkt? Welche Datensätze dürfen für KI-Modelle verwendet werden? Wie aktuell sind die Zahlen im Regulatory Reporting?

Die Datenlandschaft war über Jahre organisch gewachsen. Zwölf Abteilungen arbeiteten mit acht verschiedenen Datenbanksystemen, ergänzt durch Hunderte von Excel-Dateien und Schatten-IT-Lösungen. Jede Abteilung hatte ihre eigene Version der Wahrheit. Keine stimmte mit der anderen überein.

Erste KI-Initiativen waren bereits gescheitert. Nicht an der Technologie, sondern an der Datengrundlage. Ein Modell zur Kundenabwanderung lieferte unbrauchbare Ergebnisse, weil die Trainingsdaten aus drei Quellen stammten, die unterschiedliche Kundendefinitionen verwendeten. Die Compliance-Abteilung konnte nicht nachweisen, welche personenbezogenen Daten wo gespeichert waren. Und jede Auswertung, die über Standardreports hinausging, erforderte ein IT-Ticket mit drei Wochen Wartezeit.

Die Erkenntnis: Ohne eine durchgängige Datenstrategie würde jede weitere Investition in KI, Automatisierung oder Analytics ins Leere laufen.

Herausforderung

Heading

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

Lösung

Von Datensilos zum Datenökosystem. In sechs Monaten.

Datenreifegrad bestimmen

Am Anfang stand keine Technologie-Entscheidung, sondern ein Data Maturity Assessment über alle zwölf Abteilungen. PLAN D inventarisierte sämtliche Datenquellen, bewertete ihre Qualität und analysierte die tatsächlichen Nutzungsmuster. Das Ergebnis war ernüchternd und erhellend zugleich: 73 Prozent der vorhandenen Daten waren für analytische oder KI-Zwecke nicht nutzbar. Nicht wegen fehlender Technologie, sondern wegen fehlender Qualität, Struktur und Dokumentation. Dieses Assessment machte das Unsichtbare sichtbar und schuf die Grundlage für jede weitere Entscheidung.

Zielbild und Datenarchitektur entwerfen

Auf Basis des Assessments entwarf PLAN D gemeinsam mit der IT-Leitung eine domänenorientierte Zielarchitektur nach Data-Mesh-Prinzipien. Statt alle Daten in ein zentrales Data Warehouse zu pressen, erhielt jede Fachabteilung die Verantwortung für ihre eigenen Datenprodukte. Mit klaren Schnittstellen, definierten Qualitätsstandards und einem einheitlichen Zugriffslayer. Als technologische Basis fiel die Entscheidung auf die Databricks Lakehouse Platform: Sie vereint die Flexibilität eines Data Lake mit der Struktur eines Data Warehouse auf einem einzigen System. Das Tabellenformat Delta Lake sichert dabei Transaktionssicherheit und Versionierung. Der Unity Catalog liefert die zentrale Governance-Schicht für Metadaten, Zugriffssteuerung und Data Lineage.

Data Governance aufbauen

Eine Datenarchitektur ohne Governance ist ein Gebäude ohne Statik. PLAN D etablierte ein Data Governance Framework, das nicht als Dokument in der Schublade endete, sondern als gelebte Praxis in den Arbeitsalltag integriert wurde. In jeder Fachabteilung wurden Data Stewards benannt: Mitarbeitende, die Verantwortung für die Qualität, Aktualität und Vollständigkeit ihrer Datendomäne übernehmen. Ergänzt durch Data Owner auf Führungsebene und Data Engineers in der IT entstand eine durchgängige Verantwortungskette. Der Unity Catalog wurde zum Single Point of Truth für alle Metadaten: Wer hat welche Daten erstellt? Woher kommen sie? Wer darf sie nutzen? Jede Datenquelle erhielt eine dokumentierte Lineage, von der Entstehung bis zur Verwendung in Reports und Modellen.

Datenplattform implementieren

In der Implementierungsphase ging die Databricks Lakehouse Platform produktiv. Automatisierte Data Pipelines übernahmen die Integration der 50+ Datenquellen: ETL-Prozesse für Batchdaten, Change Data Capture für Echtzeitströme aus den Kernbanksystemen. Der Unity Catalog stellte sicher, dass jede Transformation nachvollziehbar blieb. Darauf aufbauend entstand ein Self-Service-BI-Layer, über den Fachabteilungen eigenständig Analysen erstellen konnten. Ohne IT-Ticket, ohne Wartezeit.

Organisation befähigen

Technologie allein verändert keine Organisation. PLAN D begleitete die Einführung mit einem Data-Literacy-Programm, das alle Hierarchieebenen einschloss. Die Data Stewards erhielten eine strukturierte Ausbildung in Datenqualitätsmanagement und Governance-Prozessen. Fachabteilungen lernten, den Self-Service-BI-Layer für eigene Analysen zu nutzen. Und die Geschäftsführung erhielt ein KI-Readiness-Assessment, das auf Basis der nun bereinigten Datenlandschaft konkrete Use Cases priorisierte. Der Startschuss für die nächste Phase.

Ergebnis

Daten verstehen. Daten nutzen. Daten steuern.

In sechs Monaten entstand aus einer fragmentierten Datenlandschaft ein durchgängiges Datenökosystem. Alle 50+ Datenquellen sind über die Lakehouse-Plattform zugänglich, im Data Catalog dokumentiert und mit vollständiger Lineage nachvollziehbar. Data Stewards in allen zwölf Abteilungen steuern die Qualität ihrer Datendomänen. Fachabteilungen erstellen eigenständig Analysen. In Minuten statt Wochen.

Das Ergebnis ist mehr als eine Plattform: Es ist die Grundlage für jede weitere KI-Initiative, für belastbares Regulatory Reporting und für eine Organisation, die erstmals ein gemeinsames Verständnis davon hat, welche Daten sie besitzt und was sie damit tun kann.

Zahlen & Fakten

6 Monate

vom Assessment bis zur produktiven Plattform

50+

Datenquellen inventarisiert und integriert

73 %

der Daten erstmals KI-ready nach Bereinigung

< 5 Min

von der Frage zum Dashboard (vorher: 3 Wochen IT-Ticket)
Techologie

So haben wir es umgesetzt

Data Lakehouse

Architekturansatz, der die Flexibilität eines Data Lake mit der Struktur und Transaktionssicherheit eines Data Warehouse auf einer einzigen Plattform vereint.

Data Mesh

Organisationsprinzip, bei dem Fachabteilungen Verantwortung für ihre Datenprodukte übernehmen. Mit definierten Qualitätsstandards und Schnittstellen.

Data Pipelines

Data Catalog & Lineage

Zentrale Metadatenverwaltung, die für jede Datenquelle Herkunft, Qualität und Nutzungshistorie dokumentiert. Der Single Point of Truth für die gesamte Datenlandschaft.

Data Governance

Framework aus Rollen, Policies und Prozessen für Datenqualität, Zugriffssteuerung und Compliance. Gelebte Praxis, nicht Dokument.

Self-Service BI

Analyseplattform, die Fachabteilungen befähigt, eigenständig Daten zu explorieren und Dashboards zu erstellen. Ohne Abhängigkeit von der IT.

Fragen & Antworten

Eine Datenstrategie definiert, wie ein Unternehmen seine Daten erhebt, speichert, verwaltet und nutzt, um aus Daten systematisch Wert zu schöpfen. Sie umfasst technische Architektur, organisatorische Verantwortlichkeiten und einen konkreten Umsetzungsplan.

Unternehmen brauchen eine Datenstrategie, sobald Daten nicht mehr nur in einzelnen Abteilungen genutzt werden, sondern unternehmensübergreifend relevant sind. Ohne Strategie entstehen Datensilos, widersprüchliche Reports und KI-Projekte, die an der Datenqualität scheitern. In der Finanzbranche kommt regulatorischer Druck hinzu: BaFin, DSGVO und EU AI Act fordern nachvollziehbare Datenflüsse und dokumentierte Datenqualität.

Ein Data Lakehouse vereint die Stärken beider Architekturen: die Flexibilität eines Data Lake für unstrukturierte Daten mit der Struktur und Transaktionssicherheit eines Data Warehouse für analytische Abfragen. Technisch ermöglicht das offene Tabellenformate wie Delta Lake, die ACID-Transaktionen direkt auf dem Data Lake bereitstellen.

Der Vorteil: Statt zwei getrennte Systeme zu betreiben und Daten zwischen ihnen zu kopieren, arbeiten alle Anwendungsfälle auf einer einzigen Plattform: Echtzeit-Analytics, Regulatory Reporting, Machine Learning. Das reduziert Komplexität, Kosten und das Risiko inkonsistenter Daten.

Data Governance umfasst die organisatorischen Regeln, Rollen und Prozesse, die sicherstellen, dass Daten korrekt, vollständig, nachvollziehbar und sicher verwaltet werden. Die drei zentralen Rollen sind Data Owner (strategische Verantwortung), Data Steward (operative Datenqualität) und Data Engineer (technische Umsetzung).

In der Finanzbranche ist Data Governance kein Nice-to-have, sondern regulatorische Pflicht. Aufsichtsbehörden erwarten nachvollziehbare Datenflüsse, dokumentierte Datenherkunft und jederzeit belegbare Datenqualität. Ohne gelebte Governance riskieren Finanzdienstleister nicht nur fehlerhafte Reports, sondern auch aufsichtsrechtliche Konsequenzen.

Der Zeitrahmen hängt von Unternehmensgröße und Komplexität der Datenlandschaft ab. In diesem Projekt erreichten wir in sechs Monaten den vollständigen Weg vom Data Maturity Assessment bis zur produktiven Lakehouse-Plattform.

Entscheidend für die Geschwindigkeit ist kein Technologiefaktor, sondern die Bereitschaft der Organisation, Verantwortung für Daten zu übernehmen. Unternehmen, die Data Stewards frühzeitig benennen und dem Projekt Managementunterstützung geben, kommen deutlich schneller voran.

Data Mesh ist ein Organisationsprinzip, bei dem die Verantwortung für Daten nicht zentral bei der IT liegt, sondern bei den Fachabteilungen, die die Daten erzeugen und am besten kennen. Jede Abteilung verantwortet ihre Datenprodukte — mit definierten Qualitätsstandards, klaren Schnittstellen und einer gemeinsamen Infrastrukturplattform.

Für den Mittelstand ist Data Mesh dann relevant, wenn das Unternehmen groß genug ist, dass zentrale Datenteams zum Flaschenhals werden. Ab etwa zehn Fachabteilungen und einer zweistelligen Zahl an Datenquellen löst die dezentrale Verantwortung ein reales Problem. Wichtig: Data Mesh bedeutet nicht Anarchie. Die technische Plattform und die Governance-Standards bleiben zentral.

Datenqualität wird entlang definierter Dimensionen gemessen: Vollständigkeit (fehlen Werte?), Korrektheit (stimmen die Werte?), Aktualität (wie alt sind die Daten?), Konsistenz (widersprechen sich Quellen?) und Eindeutigkeit (gibt es Duplikate?).

In der Praxis werden diese Dimensionen durch automatisierte Qualitätschecks in den Data Pipelines überwacht. Jeder Datensatz durchläuft bei der Ingestion eine Validierung. Der Data Catalog dokumentiert die Qualitätsmetriken je Datenquelle. Data Stewards überprüfen regelmäßig die Ergebnisse und eskalieren bei Abweichungen. So entsteht ein kontinuierlicher Qualitätsprozess statt einmaliger Bereinigungsaktionen.

KI-Modelle sind nur so gut wie ihre Trainingsdaten. Eine Datenstrategie schafft die Voraussetzungen, die KI-Projekte brauchen: saubere, dokumentierte, zugängliche Daten in einem einheitlichen Format. Ohne diese Grundlage scheitern Modelle an widersprüchlichen Kundendefinitionen, fehlenden Werten oder Daten, die gar nicht verwendet werden dürfen.

Konkret liefert eine umgesetzte Datenstrategie drei Dinge: Erstens eine Plattform, auf der Daten für Training und Inference bereitstehen. Zweitens eine Governance, die klärt, welche Daten für welche Zwecke genutzt werden dürfen. Drittens ein Data Catalog, der Data Scientists Daten finden lässt, ohne jede Abteilung einzeln fragen zu müssen. In diesem Projekt waren nach der Umsetzung 73 Prozent der Daten erstmals KI-ready. Die Basis für die nächsten Projekte.

Data Stewards sind die operativen Hüter der Datenqualität in ihren Fachabteilungen. Sie stellen sicher, dass die Daten ihrer Domäne korrekt, vollständig und aktuell sind. Sie definieren Qualitätsregeln, überwachen deren Einhaltung und sind erste Ansprechpartner bei Datenqualitätsproblemen.

Im Unterschied zu Data Owners (strategische Verantwortung, meist Führungsebene) und Data Engineers (technische Umsetzung, IT) arbeiten Data Stewards direkt im Fachbereich. Sie kennen die Geschäftslogik hinter den Daten und können beurteilen, ob ein Wert nicht nur technisch valide, sondern auch fachlich korrekt ist. In diesem Projekt wurden in allen zwölf Abteilungen Data Stewards benannt und in einem strukturierten Programm ausgebildet.

Cases

Mehr KI-Projekte aus der Praxis

PLAN D Logo

700 Mitglieder, eine KI

Wie ein Verband KI-Dokumentenmanagement für 700 Mitglieder bezahlbar machte

700+

Mitgliedsunternehmen mit Zugang zur KI-Suche
Learn more

Digitalstrategie für 1,2 Millionen Mitglieder

Digitalstrategie für ADAC Hansa: Wenn die Ankerleistung an Relevanz verliert

100%

Zustimmung von Soundingboard und Führungskreis
Learn more

360°-Kundensicht für den Vertrieb

360°-Kundensicht mit KI: Datengetriebener Vertrieb für 1,2 Millionen Kunden

2x

Verdopplung der Verkaufswahrscheinlichkeit
Learn more

Von KI-Zurückhaltung zur KI Roadmap

KI-Strategie für FinTech: Wie ein Scale-up eine investorenreife KI Roadmap entwickelt

2

intensive Tage KI Ideenwerkstatt
Learn more

Preisprognose in Sekunden

Von 10 Jahren Transaktionsdaten zur verbindlichen Preisprognose in Echtzeit

24h → 1 Sek.

Prozessbeschleunigung der Wertermittlung
Learn more
PLAN D Logo

Reparaturkosten in Sekunden

KI-Prognose von Reparaturkosten im Kfz-Schadenmanagement

93 %

schnellere Schadenregulierung
Learn more
PLAN D Logo

Datenstrategie statt Datensilos

Datenstrategie für die Finanzbranche: Von 50 Datenquellen zur KI-fähigen Lakehouse-Plattform

6 Monate

vom Assessment bis zur produktiven Plattform
Learn more
PLAN D Logo

50 Millionen Euro durch Daten

Einkaufsoptimierung in der Kfz-Versicherung

~50 Mio. €

Einsparung pro Jahr dank KI
Learn more

Fachwissen auf Knopfdruck

KI-Assistent im Kundenservice mit RAG-System

100

Tage Idee bis MVP
Learn more

Digitale Zukunft für die Energiewende

KI-gestützte Digitalstrategie: Wie ein Bundesunternehmen seine Prozesse modernisiert

7

Monate von Ist-Analyse bis Roadmap
Learn more
PLAN D Logo

KI kalkuliert Hagelschäden

Hagelschaden in Millisekunden kalkuliert: Wie KI Versicherungen bei der Massenregulierung entlastet

40.000+

abgewickelte Hagelschäden über das KI-System pro Jahr
Learn more
PLAN D Logo

Computer Vision im Schadenmanagement

KI-Bilderkennung im Kfz-Schadenmanagement: Schadenbewertung in Sekunden statt Tagen

93 %

Prognosegüte in der Bauteilserkennung, auf Gutachter-Niveau
Learn more

Mit Daten Leben retten

KI in der Medizin: Datenanalyse in der Notfallversorgung

1,3 Stunden

schnellere Behandlung pro Schlaganfall
Learn more

Remote Videobesichtigung von Kfz Schäden

Remote Videobesichtigung von Kfz Schäden einer Versicherungsnehmerin

100.000 Euro

Projektvolumen pro bono
Learn more

Omnikanal im Versicherungsvertrieb

Gemeinsam mehr erreichen: Omnikanal im Versicherungs-Vertrieb

Learn more

Bereit wenn Sie es sind

Zukunft beginnt, wenn menschliche Intelligenz künstliche Intelligenz entwickelt. Der erste Schritt ist nur ein Klick.

Vertrieb kontaktieren
Jetzt bewerben

Zukunft beginnt, wenn menschliche Intelligenz künstliche Intelligenz entwickelt. Der erste Schritt ist nur ein Klick.