BI AI Big Data Interviews

Die Vorteile von Data Warehouse und Data Lake kombinieren

Mit der Lakehouse-Architektur für die Datenanalyse in der Cloud liefert Databricks ein Bindeglied zwischen der bekannten Business-Intelligence-Welt und neuen Machine-Learning-Anwendungen. Die Lösung kombiniert dazu die Stärken von Data Lakes mit denen von Data Warehouses. BI-Spektrum sprach mit Horst Mundt von Databricks über die Vorteile und Herausforderungen der Architektur.

Christoph Witte

Chefredakteur IT Spektrum und BI-Spektrum

Horst Mundt

Manager Solutions Architects

11.03.2021
Lesezeit: 7 Minuten
96 Views

Wer ist und was macht Databricks?

Mundt: Databricks ist der Anbieter einer Unified Data Analytics Platform in der Cloud. Die Plattform bietet basierend auf Apache Spark klassische Big-Data-Analyse-Funktionen und beinhaltet darüber hinaus vielfältige KI- und Machine Learning Frameworks, die neue Möglichkeiten der Einsicht in die Datenbestände ermöglichen. Databricks ergänzt Spark um Funktionen für einen stabilen Betrieb und optimale Performance. Der „Delta Lake“ erweitert Data Lakes um Transaktionsfähigkeit (ACID Transactions) und massive Performance-Verbesserungen. Er schafft damit die Voraussetzungen, um Analysen aus der Data-Warehouse-Welt direkt auf einem Data Lake zu betreiben – die „Lakehouse“-Architektur. Sie ist die Plattform für die Arbeit der Anwender mit allen im Unternehmen verfügbaren Daten, Analysen und KI-Workloads.

"Unternehmen speichern zwar Unmengen an Daten, können daraus aber keinen Mehrwert generieren, weil es zu viele Silos gibt."

Wo liegen die Probleme auf dem Weg zu einem datengetriebenen Unternehmen?

Mundt: Unternehmen kommen mit ihren Analysen ans Limit. Sie speichern zwar Unmengen an Daten, können daraus aber keinen Mehrwert generieren, weil es zu viele Silos gibt: Datensilos, Technologiesilos oder organisatorische Silos. Das heißt: Die Daten sind verteilt, der Zugriff darauf erfolgt uneinheitlich und es mangelt an Geschwindigkeit. Ein weiteres Problem: Kommt eine BI-Lösung im Unternehmen zum Einsatz, so können die Anwender nur auf eine

Teilmenge der für sie relevanten Daten zugreifen. Verschärft wird die Situation, wenn nun Machine-Learning-Analysen durchgeführt und genutzt werden sollen, die auch Lebenszyklus-Modelle berücksichtigen. Und last but not least müssen die Entwicklungen im Bereich ML-Data Science „Business-ready“ sein und Bereiche wie Sicherheit, Verfügbarkeit, Zuverlässigkeit und Governance sicherstellen.

Ist der Hype um Daten, Analytics und AI/ML gerechtfertigt?

Mundt: Den Hype gab es schon vor über 20 Jahren in der Uni-Szene. Er ist heute in der Industrie angekommen – und auch im Handel. Stichwort: Demand Prediction. Früher waren Daten oft eher „Abfallprodukte” eines Geschäftsprozesses. Heute werden sie jedoch beispielsweise im IoT gezielt produziert, um sie zu analysieren. Die Unternehmen haben erkannt: Wer Datenanalyse vernachlässigt, hat schon einen Wettbewerbsnachteil.

Was sind die Vorteile einer Unified Data Analytics Platform?

Mundt: Wer datengetriebene Entscheidungen treffen will, sollte schnell und einfach im Rahmen seiner Berechtigungen Zugriff auf die Daten bekommen. Realisiert wird dies über ein „Lakehouse“. Die Unified Data Analytics Platform besteht zunächst aus einem Data Lake für alle Daten, die das Unternehmen für Analysen zur Verfügung hat: strukturierte, unstrukturierte oder halbstrukturierte Daten. Es kann sich auch um Echtzeitdaten handeln. Klassische Data Warehouses sind für statistische Zwecke gut, für Bild, Audio- oder Videoanalysen jedoch weniger gut geeignet.

Warum eignet sich die Plattform besonders für Data Scientists?

Mundt: Sie bringt mit ihren Funktionen Data Engineers, Data Scientists und Business-Analysten in einem interaktiven Teambereich zusammen. Es sind Schnittstellen integriert für alle Anwender, die Daten analysieren wollen: „Notebook“ für Data Scientists, APIs für Data Engineers und Konnektoren für BI-Tools wie Tableau oder Power BI. Üblicherweise verbringen Data Scientists, die mit Machine Learning beschäftigt sind, heute viel Zeit damit, Tool-Sets zum Laufen zu bringen, die sie für ihre Analysen benötigen. Die Tool-Sets sind hier – „ready to use“ – bereits integriert. Die Scientists können ML-Modelle darauf entwickeln, ohne sich intensiv um den Aufbau der Infrastruktur kümmern zu müssen. Aus verschiedensten Quellen und Transaktionssystemen lassen sich Daten integrieren – auch IoT- oder Third-Party-Daten.

Wie wird die Konsistenz der Daten gewährleistet?

Mundt: Der Data Lake enthält einen Transaction Layer. Er fungiert als Qualitätssicherung. Werden Daten integriert, garantiert Delta Lake, dass die Integration vollständig abläuft. Treten bei diesem Vorgang Probleme auf, schaltet Delta Lake auf den vorherigen Zustand zurück. Um Inkonsistenzen braucht sich der Nutzer also keine Gedanken zu machen.

Ist es eine End-to-End-Lösung?

Mundt: Ja, denn durch die ML-Frameworks in der Plattform können Data Scientists schnell und einfach Machine-Learning-Modelle entwickeln. MLFLow bietet ein vollständiges Lifecycle-Management für ML-Modelle, und bei BI Reports und Dashboards ist SQL Analytics – derzeit im Preview – das Interface für den klassischen Business-Analysten, der es gewohnt ist, mit Data Warehouses zu arbeiten. Mit der Unified Data Analytics Platform entsteht so das „Lakehouse“: die Verschmelzung der beiden Paradigmen Data Lake und klassisches Data Warehouse.

Was sagen die Kunden?

Mundt: Shell beispielsweise führt Datenanalysen durch und setzt Machine-Learning-Modelle ein, um die betriebliche Effizienz zu steigern. Das führt zu enormen Einsparungen. Die Verwendung einer gemeinsamen Plattform hat Ingenieure, Datenwissenschaftler und Analysten in die Lage versetzt, agiler, kollaborativer und datengesteuerter zu arbeiten. Shell hat derzeit über 160 KI-Projekte laufen. Auch bei Hotels.com, einem der führenden Internetanbieter zur Online-Buchung von Unterkünften, hat die Einführung der Unified Data Analytics Platform mit einem interaktiven Arbeitsbereich zu mehr Agilität und Flexibilität geführt. Data-Science-Teams arbeiten viel enger zusammen – sowohl innerhalb von Hotels.com als auch bei anderen Abteilungen der Muttergesellschaft Expedia.

Wer sind Ihre Ansprechpartner in Anwenderunternehmen?

Mundt: Die Plattform ist ein Cloud-Service, den jeder nutzen kann. Manche Kunden nutzen ihn einfach, ohne inhaltlich mit uns Kontakt aufzunehmen, und bezahlen dafür. Sie können die Lösung dann beispielsweise über Azure oder AWS konsumieren. Es gibt allerdings auch viele Kunden, für die die Plattform große strategische Bedeutung hat. Mit diesen Anwendern sind wir direkt im Gespräch. Der Einstiegspunkt ist dabei oft die IT, die vom Business mit Anforderungen konfrontiert wird. Um dann Mehrwert zu generieren, sind Gespräche mit dem Business nötig, wo wir helfen, die Anwendungsfälle zu verstehen, und mit Expertise zur Seite stehen.

Ihr Unternehmen betont den Open-Source-Ansatz. Was sind die Vorteile dieses Ansatzes im Bereich Daten und AI?

Mundt: Wir bieten einen Cloud-Service an, das heißt: Wir betreiben die Plattform. Dafür nutzen wir selbst sehr viele Open-Source-Technologien. Zudem ermöglichen Open-Source-Tools und Datenformate wie Parquet den Kunden größtmögliche Flexibilität und Portabilität – über verschiedene Cloud-Umgebungen hinweg, und bei Open Source gibt es keinen Vendor-Lock-in. Da wir selbst Open-Source-Anwender sind, möchten wir der Community auch etwas zurückgeben.

"Mit der Unified Data Analytics Platform entsteht so das "Lakehouse": die Verschmelzung der beiden Paradigmen Data Lake und klassisches Data Warehouse"

Was sind die Herausforderungen?

Mundt: Wenn man die drei Komponenten „People, Process and Technology“ untersucht, so wird deutlich, dass es vor allem beim Faktor Mensch noch viel Potenzial gibt. In Sachen Technologie können wir unterstützen, und auch Prozesse sowie deren Anpassungen haben die meisten Unternehmen im Griff. Doch man muss die Mitarbeiter mit auf die Reise nehmen. Hier ist „Data Literacy“ – also Datenkompetenz – gefragt. Wenn Unternehmen datengetriebene Entscheidungen treffen wollen, müssen sich Mitarbeiter Datenkompetenz aneignen. Sie müssen lernen, mit den Daten umzugehen und sie zu interpretieren. Sie müssen aber auch befähigt werden, Entscheidungen zu treffen. Denn wenn Unternehmensstrategien und der Arbeitsalltag der Mitarbeiter nicht im Einklang stehen – beispielsweise, wenn Mitarbeiter Daten sehen, die in eine andere Richtung zeigen als die vorgegebene Strategie –, dann muss bei allen Beteiligten eine Warnlampe angehen.

. . .

Vorheriger Artikel