Databricks · Features

Databricks SQL: Serverless Data Warehousing auf dem Lakehouse 2026

Lädt ein Dashboard langsam, lohnt sich zuerst der Blick unter die Haube: ins Warehouse. Databricks SQL beseitigt die Trennung zwischen Analytics und Engineering, indem es ein vollständiges SQL-Analytics-Interface direkt auf dem Lakehouse bereitstellt. Keine Kopien, keine Silos, kein separates Warehouse.

Gespräch vereinbaren

TL;DR

Databricks SQL ist keine isolierte Warehouse-Lösung, sondern eine SQL-Schicht direkt auf dem offenen Lakehouse ohne Datenkopien oder Silos.

Serverless SQL Warehouses starten in Sekunden, skalieren automatisch und sind für die meisten neuen Workloads die empfohlene Wahl.

Photon hat die Performance realer Produktions-Workloads in drei Jahren um den Faktor 5 verbessert, automatisch und ohne Query-Rewrites.

AI Functions wie ai_classify() und ai_summarize() bringen generative AI direkt in SQL, bis zu 85x schneller als noch vor einem Jahr.

Architektur: SQL-Engine auf dem offenen Lakehouse

Databricks SQL ist kein eigenständiges Data Warehouse, sondern eine SQL-Analytics-Schicht, die direkt auf der Lakehouse-Architektur aufsetzt. Die Daten bleiben in offenen Formaten auf eurem Cloud Object Storage (S3, ADLS Gen2, GCS), während Databricks SQL die Compute-Schicht bereitstellt, die diese Daten für SQL-Workloads optimiert.

Photon: Die native Query Engine

Im Kern von Databricks SQL arbeitet Photon, eine von Grund auf in C++ geschriebene, vektorisierte Query Engine. Die Performance realer Kunden-Workloads hat sich seit 2022 um den Faktor 5 verbessert. Allein im vergangenen Jahr kamen durchschnittlich 40% Performance-Gewinn über alle Produktions-Workloads hinzu. Predictive Query Execution und Photon Vectorized Shuffle liefern weitere 25% ohne Konfigurationsänderung.

Predictive Query Execution statt reaktiver Optimierung

Predictive Query Execution (PQE) führt eine kontinuierliche Feedback-Schleife ein: laufende Tasks werden in Echtzeit auf Metriken wie Spill-Größe und CPU-Auslastung überwacht. Sobald kritische Schwellwerte erreicht sind, stoppt PQE die Stage und plant sie sofort neu, bevor Compute verschwendet wird. Das Ergebnis sind stabilere Laufzeiten und weniger Ausreißer.

Entkopplung von Compute und Storage

Databricks SQL liest direkt aus Delta Lake auf eurem Object Storage. Ihr bezahlt Storage und Compute getrennt, dieselben Tabellen stehen sofort für SQL-Queries zur Verfügung, und offene Formate verhindern Vendor Lock-in.

SQL Warehouses: Serverless, Pro und Classic

Welche Variante passt, hängt von Workload, Concurrency und Governance-Anforderungen ab. Die drei Typen unterscheiden sich im Betriebsmodell, Feature-Set und der Kostenstruktur.

Serverless: Sofort verfügbar

Starten in Sekunden, skalieren automatisch, vollständig verwaltet durch Databricks. Alle Engine-Updates werden automatisch ausgerollt. DBU-Preis: $0,70/DBU. Optimal für Ad-hoc-Analysen, Dashboards und variable Last.

Pro: Der Mittelweg

Gleiches Feature-Set wie Serverless (Photon, AI Functions, IWM), aber auf kundenseitig provisionierter Infrastruktur. Startzeit: Minuten. DBU-Preis: $0,55/DBU. Für vorhersagbare Workloads mit stabiler Concurrency.

Classic: Legacy-Option

Kostengünstigste Option ($0,22/DBU), verzichtet auf AI Functions, Intelligent Workload Management und automatische Engine-Updates. Nur noch für stabile Legacy-Batch-Workloads.

SQL Editor und Entwicklererfahrung

ANSI-SQL – kein proprietärer Dialekt

Databricks SQL spricht standardkonformes ANSI SQL. Wer SELECT, JOIN, GROUP BY, Window Functions oder CTEs kennt, schreibt sofort produktive Queries – ohne neue Syntax zu lernen. Bestehende SQL-Skripte aus anderen Warehouses lassen sich in den meisten Fällen ohne Anpassung migrieren.

Integrierter SQL Editor mit AI-Unterstützung

Databricks bringt einen vollwertigen SQL Editor direkt in der Web-Oberfläche mit: Syntax-Highlighting, kontextabhängiges Autocomplete (erkennt Tabellen, Spalten und Aliase aus Unity Catalog), Multi-Tab-Editing und integrierte Visualisierungen. Der Databricks Assistant kommt als AI-Copilot dazu: er generiert SQL aus natürlichsprachlichen Beschreibungen und optimiert bestehende Queries über den /optimize-Befehl.

Unity Catalog als zentraler Datenkatalog

Der SQL Editor ist nativ in Unity Catalog integriert: der Schema-Browser zeigt alle Catalogs, Schemas und Tabellen, auf die der Nutzer Zugriff hat – mit Spaltentypen, Beschreibungen und Lineage-Informationen. BI-Analysten im SQL Editor sehen exakt dieselben Tabellen und Berechtigungen wie Data Engineers in Notebooks.

AI Functions: Generative AI direkt in SQL

Databricks SQL bringt Large Language Models direkt in die SQL-Schicht: über native AI Functions lassen sich Klassifikation, Zusammenfassung, Übersetzung und Dokumentenverarbeitung als SQL-Funktionen aufrufen – ohne separates Model-Deployment und ohne Python-Code.

ai_query()

Universelle Schnittstelle: sendet beliebige Prompts an Foundation Models (Llama, DBRX, Claude, GPT) und gibt das Ergebnis als SQL-Spalte zurück. Auch für eigene Fine-Tuned-Modelle nutzbar.

ai_classify() / ai_summarize()

Spezialisierte Funktionen für Kategorisierung und Textzusammenfassungen. Durch Batch-Optimierung bis zu 85x schneller als noch vor einem Jahr.

ai_parse_document()

Extrahiert strukturierte Daten aus PDFs, Bildern und gescannten Dokumenten direkt in SQL. Nutzt spezialisierte Modelle auf Databricks Model Serving – bis zu 30x höherer Durchsatz als generische LLM-Alternativen.

ai_translate() / ai_extract()

Übersetzungen und strukturierte Extraktion aus Freitext als SQL-Funktionen. Alle Funktionen laufen batch-optimiert auf Databricks Model Serving.

Governance und Sicherheit mit Unity Catalog

Governance, Zugriffssteuerung und Compliance in Databricks SQL laufen über Unity Catalog. Jede Tabelle, jede View und jedes Dashboard unterliegt demselben Berechtigungsmodell – mit Row-Level Security, Column Masking und feingranularer Zugriffssteuerung.

Performance trotz Governance

Databricks hat die End-to-End-Latenz von Unity Catalog um den Faktor 10 reduziert, sodass Dashboards responsiv bleiben, auch wenn feingranulare Zugriffskontrollen auf jeder Tabelle aktiv sind. Ihr müsst nicht zwischen starker Governance und schnellen Queries wählen.

Materialized Views und Metric Views

Databricks SQL unterstützt Materialized Views als Unity-Catalog-Managed-Tables, die Query-Ergebnisse physisch speichern und inkrementell aktualisieren. Metric Views machen Business-Metriken zu First-Class-Assets: eine Metrik wie „Monthly Recurring Revenue“ wird einmal definiert und ist dann konsistent in SQL-Queries, Dashboards, Notebooks und AI-Workloads nutzbar.

Databricks SQL im Vergleich: Snowflake, BigQuery, Fabric

vs. Snowflake

In ETL-Benchmarks (TPC-DI) zeigt Databricks SQL bis zu 2,8x kürzere Laufzeiten bei 3,6x besseren Gesamtkosten. Strategischer Unterschied: Databricks SQL operiert auf denselben Daten wie eure Data-Engineering- und ML-Workloads. Bei Snowflake sind Analytics und Engineering getrennte Welten mit getrennten Compute-Pools.

vs. Microsoft Fabric

Fabric bietet T-SQL-Kompatibilität und native Power-BI-Integration für Microsoft-Shops. Databricks SQL ist Cloud-agnostisch (AWS, Azure, GCP), bietet die leistungsstärkere Engine für schwere Workloads und verbindet SQL direkt mit Data Engineering und AI auf derselben Plattform.

Wann Databricks SQL?

Die stärkere Option, wenn eure Plattform mehr als nur SQL-Analytics leisten muss: Data Engineering, ML/AI und SQL auf denselben Daten, mit derselben Governance, ohne Datenkopien. Snowflake bleibt valide für reine BI-Szenarien mit maximaler Concurrency bei minimalem Engineering-Overhead.

Troubleshooting

Typische Fehler und wie ihr sie vermeidet

Warehouse-Sizing nach Gefühl statt nach Workload

Ein häufiger Fehler: das SQL Warehouse wird „sicherheitshalber“ größer provisioniert. Bei Serverless irrelevant. Bei Pro/Classic führt Oversizing zu dauerhaft erhöhtem DBU-Verbrauch. Fix: Mit Small starten, Query History für tatsächliche Auslastung nutzen und datenbasiert skalieren.

Classic Warehouses im Dauerbetrieb

Classic Warehouses mit deaktiviertem Auto-Stop sind der teuerste Fehler in der Praxis. Bei 168 Stunden pro Woche und 40 Stunden Nutzung zahlt ihr 75% des Compute für Leerlauf. Fix: Aggressives Auto-Stop (5–10 Minuten) oder direkt auf Serverless migrieren.

AI Functions ohne Batch-Optimierung

AI Functions auf Millionen von Rows in Echtzeit-Queries erzeugt hohe Model-Serving-Kosten. Fix: AI Functions als Materialized View oder geplanten Job ausführen, der Ergebnisse in eine Zieltabelle schreibt. Dashboards lesen dann vorberechnete Ergebnisse.

Performance-Optimierung: Was Databricks SQL automatisch macht

Predictive Optimization: Analysiert Tabellen kontinuierlich und führt automatisch OPTIMIZE, VACUUM und Statistik-Updates durch, ohne dass ihr Maintenance-Jobs schedulen müsst.

Intelligent Workload Management: Priorisiert Queries bei hoher Concurrency automatisch nach erwarteter Laufzeit, damit kurze Dashboard-Queries nicht hinter schweren ETL-Jobs warten müssen.

Zstandard-Kompression: Alle neuen Unity-Catalog-Managed-Tables verwenden standardmäßig Zstandard-Kompression, die bis zu 40% Storage-Kosten spart ohne Query-Performance-Einbußen.

Zusammenfassung

Fazit

Databricks SQL ist kein klassisches Data Warehouse, sondern die SQL-Schicht auf dem Lakehouse: dieselben Daten, dieselbe Governance, dasselbe Ökosystem wie eure Data-Engineering- und ML-Workloads.

Eine Engine, alle Workloads

Photon liefert 5x Performance-Gewinn über drei Jahre, automatisch und ohne manuelles Tuning. BI-Dashboards, ETL, Spatial Analytics und AI Functions laufen auf derselben Engine.

Serverless als Standard

Sofortiger Start, automatisches Scaling, kein Leerlauf-Compute. Für die meisten Workloads ist Serverless SQL die richtige Wahl.

AI als SQL-Funktion

ai_query, ai_classify, ai_summarize bringen generative AI direkt in eure Analytics, ohne separate Pipelines. Batch-optimiert bis zu 85x schneller als noch vor einem Jahr.

Governance ohne Kompromisse

Unity Catalog sichert feingranulare Zugriffskontrolle bei 10x niedrigerer Latenz. Metric Views machen Business-Metriken zu einem Single Point of Truth.

Offene Formate, kein Lock-in

Eure Daten bleiben in Delta Lake auf eurem Object Storage. Kein proprietäres Format, keine versteckten Exportkosten.