IaC Foundation: Kein ClickOps, kein undokumentierter Zustand
Die gesamte Infrastruktur lebt als Terraform-Code in eurem Repository. Wir provisionieren Dev- und Prod-Workspaces, konfigurieren Networking (VNet Injection / PrivateLink), Storage Accounts und Identity Integration. Jede Ressource ist versioniert, reviewbar und reproduzierbar.
Was nicht in Code steht, existiert nicht. ClickOps-Konfigurationen sind der häufigste Ausgangspunkt für Sicherheitslücken und Drift zwischen Umgebungen, weil sie weder versioniert noch reviewbar sind. Die Terraform-Struktur folgt den ruhrdot Platform Foundation Standards, die sich in über 20 Implementierungen bewährt haben.
CI/CD Pipeline: Jede Änderung durch einen kontrollierten Prozess
Deployments laufen über Databricks Asset Bundles mit einer vollständig integrierten CI/CD-Pipeline auf GitHub Actions oder Azure DevOps. Automatisierte Tests, Linting und eine saubere Dev-zu-Prod-Promotion sorgen dafür, dass jede Änderung an Pipelines, Databricks Workflows und Notebooks durch einen kontrollierten Release-Prozess läuft, statt per Klick in Produktion zu landen.
Der häufigste Fehler in wachsenden Datenplattformen ist nicht ein schlechter Code-Commit. Es ist der ungetestete manuelle Eingriff in Produktion, den niemand reviewt hat. Die CI/CD-Patterns basieren auf den ruhrdot Engineering Standards, die konsistente Deployments über alle Umgebungen hinweg gewährleisten.
Unity Catalog Struktur: Namespace-Logik, die zur Organisation passt
Wir designen eine dreischichtige Catalog-Struktur mit klaren Naming Conventions, definierten Managed und External Locations und einer Namespace-Logik, die zu eurem Organisationsmodell passt. Ob domain-basiert oder medallion-basiert hängt von eurer Teamstruktur und euren Use-Cases ab. Unity Catalog regelt dabei Ownership und Zugriff von Anfang an, sodass spätere Governance-Erweiterungen das bestehende Schema nicht brechen.
Governance und Security: Guardrails, nicht Bürokratie
Row-Level und Column-Level Security, Service Principals mit Least-Privilege-Prinzip, Cluster-Policies, die Overprovisioning verhindern, Audit Logging und IP Access Lists. Die Governance-Schicht wird so implementiert, dass sie schützt, ohne die Arbeit der Engineers zu blockieren. Der Unterschied zwischen Governance als Guardrail und Governance als Bürokratie liegt in der Umsetzung: Cluster-Policies erzwingen Right-Sizing automatisch, statt auf manuelle Freigabeprozesse zu setzen.
Wer auf Awareness setzt, wartet auf den nächsten Vorfall. Das zugrunde liegende Governance Operating Model definiert dabei Ownership, Zuständigkeiten und Eskalationspfade klar, bevor die ersten Workloads auf der Plattform laufen.
Data Lineage und Quality: Vertrauen in die Pipeline, nicht Hoffnung
Unity Catalog Lineage zeigt, woher Daten kommen und wohin sie fließen. Für die Datenqualität setzen wir auf DLT Expectations mit Lakeflow Declarative Pipelines, die Qualitätsregeln direkt in der Pipeline durchsetzen, nicht erst im Reporting sichtbar machen.
Monitoring-Dashboards in Databricks AI BI liefern den laufenden Überblick darüber, ob Pipelines stabil laufen und ob Daten vertrauenswürdig sind. Datenqualitätsprobleme, die erst im Dashboard auftauchen, sind bereits downstream angekommen.
Starter Pipelines: Erste echte Datenquelle in Tagen, nicht Wochen
Ihr bekommt Template-Pipelines für den kompletten Datenfluss von Bronze nach Silver nach Gold auf Delta Lake. Je nach Anforderung als Lakeflow Declarative Pipelines oder als Databricks Workflows. Die Templates sind so aufgebaut, dass euer Team die erste echte Datenquelle innerhalb von Tagen anbinden kann, statt Wochen mit Pipeline-Boilerplate zu verbringen.
Delta Lake erzwingt dabei ACID-Transaktionen und verhindert korrupte Writes, was gerade beim Onboarding neuer Quellen den Unterschied zwischen stabiler und fragiler Pipeline ausmacht.
Dokumentation und Enablement: Wissen im Repo, nicht in Köpfen
Jede architektonische Entscheidung ist in einem Architecture Decision Record festgehalten: Was wurde entschieden, warum, und welche Alternativen wurden verworfen. Dazu kommt ein Runbook für den operativen Betrieb und ein Onboarding-Guide, mit dem neue Engineers in der Plattform produktiv werden.
Das Wissen bleibt nicht in unseren Köpfen, sondern in eurem Repo, denn eine Plattform, die nur funktioniert, solange die Consultants erreichbar sind, ist kein Fundament, sondern eine Abhängigkeit.