Teilen

01. December 2023

Microsoft Fabric vorgestellt (Teil 1)

Seit der öffentlichen Testphase von Microsoft Fabric, die im Mai 2023 im Rahmen der Microsoft Build 2023 angekündigt wurde, ist das Produkt inzwischen seit Mitte November für alle Anwender verfügbar (wie auf der Microsoft Ignite 2023 verkündet wurde). In diesem ersten Teil unserer zweiteiligen Serie ist es an der Zeit, einen Einblick in Microsoft Fabric zu werfen und seine wichtigsten Komponenten vorzustellen. Der zweite Teil wird ein praxisnahes Beispiel für die Anwendung dieses neuen Tools beinhalten.

Überblick über Microsoft Fabric

Die Microsoft-Dokumentation beschreibt Fabric in einem Satz wie folgt:

"Microsoft Fabric is a unified platform that can meet your organization's data and analytics needs". (Quelle, November 2023)

Diese Definition mag auf den ersten Blick etwas abstrakt wirken, und daher möchten wir im Folgenden eine konkretere Vorstellung davon bieten.

Fabric wird als "unified platform" bezeichnet, weil es sich um eine Software-as-a-Service (SaaS)-Lösung handelt. Diese verknüpft bestehende Dienste wie Power BI, Synapse oder Data Factory in einer einheitlichen Benutzererfahrung und nutzt OneLake als gemeinsame Datenbasis für diese Services. All dies wird durch die Cloud-Technologie von Microsoft Azure ermöglicht.

Innerhalb von Fabric können Benutzer nahtlos zwischen verschiedenen Experiences wechseln, um jeweils auf Funktionen zuzugreifen, die zur gewählten Experience passen. Dazu gehören Power BI, Data Factory, Data Activator und Synapse mit seinen Unterbereichen Data Engineering, Data Science, Data Warehouse und Real-Time Analytics. Wenn Sie mit Databricks vertraut sind, wird Ihnen dieses Konzept bekannt vorkommen, da auch dort zwischen verschiedenen Rollen gewechselt werden kann.

Im Gegensatz zum Synapse Workspace ist Fabric nahtlos in die bestehende Weboberfläche von Power BI eingebettet und wird nicht durch das Azure Portal aufgerufen. Um einen Workspace in einen "Fabric content" umzuwandeln, muss Fabric lediglich für den gesamten Tenant oder pro Kapazität aktiviert werden. Entsprechende Workspaces sind durch einen Diamanten, ähnlich wie bei Power BI Premium, gekennzeichnet und leicht erkennbar.

Für eine detaillierte Beschreibung der einzelnen Komponenten verweisen wir auf die gut verständliche Dokumentation von Microsoft hier oder hier.

OneLake: Das Herzstück von Fabric

OneLake stellt das Herzstück von Fabric dar und ist der einheitliche Datenspeicher: Jeder Tenant hat genau einen OneLake, in dem alle Workspaces ihre Daten ablegen. 

"OneLake is a single, unified, logical data lake for your whole organization. Like OneDrive, OneLake comes automatically with every Microsoft Fabric tenant and is designed to be the single place for all your analytics data". (Quelle, November 2023)

Die Funktionsweise von OneLake kann als technisches Konzept betrachtet werden. Ähnlich wie in OneDrive alle möglichen Datentypen gespeichert werden können, dient OneLake als zentraler Speicherort für Lakehouses, Warehouses und andere Datenobjekte und -typen. Auf der Ignite wurde angekündigt, dass auch Azure ML zukünftig Ergebnisse direkt in den OneLake zurückschreiben kann. Der technische Unterbau basiert auf Azure Data Lake Storage (ADLS) Gen2, und als Speicherformat kommt das offene Delta Parquet Format zum Einsatz. Das bedeutet, dass auch andere auf ADLS basierende Anwendungen wie Databricks nahtlos mit OneLake kommunizieren können.

OneCopy: Nur noch ein Datensatz

Ein zentrales Konzept von OneLake ist "OneCopy", das darauf abzielt, stets nur eine Kopie der Daten zu halten, ohne Duplikate zu erzeugen. Diese Philosophie ist darauf ausgerichtet, die Datenverwaltung zu vereinfachen und redundante Datenspeicherung zu vermeiden.

Um dieses Konzept umzusetzen, kommen sogenannte Shortcuts zum Einsatz. Shortcuts sind Referenzen zu Daten, die an anderen Orten gespeichert und dadurch im OneLake verfügbar sind, ohne dabei dupliziert zu werden. Externe Daten können beispielsweise in anderen Workspaces, in Azure Data Lake Storage (ADLS), Amazon S3 oder Dataverse liegen.

Durch die Nutzung von Shortcuts ermöglicht OneCopy eine effiziente Verwaltung von Daten, ohne dabei unnötigen Speicherplatz zu beanspruchen. Diese externe Verlinkung zu Datenquellen trägt dazu bei, die Integrität der Daten beizubehalten, während gleichzeitig Flexibilität in der Datenspeicherung gewährleistet wird.

Weitere Einblicke in das Konzept von OneCopy finden Sie hier.

OneLake vs. Lakehouse vs. Data Warehouse vs. Delta Lake (Tables)

Die unterschiedlichen Begriffe im Zusammenhang mit Fabric können zu Verwirrung führen. Im folgenden Abschnitt werden daher die geläufigsten Benennungen gegenübergestellt.

Zusammenfassung (tl;dr):

  • OneLake: Der zentrale Speicherort für Lakehouses und Data Warehouses.

  • Lakehouse:

    • Vereint die Funktionalitäten eines Data Lakes und eines klassischen Warehouses.

    • Fokus auf Spark.

    • Stellt einen Read-Only SQL Endpoint zur Verfügung.

  • Data Warehouse:

    • Fokus auf SQL.

    • Unterstützt DDL- und DML-Abfragen.

  • Delta Lake: Das verwendete Format von Objekten im OneLake.

OneLake

Wie in einem vorherigen Abschnitt erklärt, fungiert OneLake als der zentrale Datenspeicher für verschiedene Datenobjekte in Fabric, darunter Lakehouses und Data Warehouses.

Weitere Informationen zu OneLake

Data Warehouse

Im Gegensatz zum SQL-Endpoint eines Lakehouse bietet ein Data Warehouse zusätzliche Unterstützung für Data Definition Language (DDL) und Data Manipulation Language (DML). In diesem Sinne handelt es sich um ein klassisches Enterprise Data Warehouse.

Weitere Informationen zu Data Warehouse

Delta Lake (Tables)

Die Tabellen im OneLake basieren auf dem Linux Foundation Delta Lake Format, welches üblicherweise in Apache Spark verwendet wird. Der Begriff "Delta Tables" bezeichnet Tabellen im Delta Lake Format. Als Speicherformat kommen versionierte Parquet-Files zum Einsatz, die durch ein Transaktionsprotokoll (Transaction Log) Time-Travel ermöglichen.

Weitere Informationen zu Delta Lake

Lakehouse

Ein Lakehouse in Fabric vereint die Flexibilität und Skalierbarkeit eines Data Lake mit den Abfrage- und Analysemöglichkeiten eines Data Warehouse. Es stellt eine umfassende Sammlung von Daten, Dateien, Ordnern und Tabellen dar, die sowohl mit Apache Spark (z.B. PySpark) als auch mit SQL abgefragt werden können.

Jedes Lakehouse generiert drei Objekte im Workspace:


1. Lakehouse:
Das zentrale Repository, das Dateien, Ordner und Tabellen enthält und mit dem beispielsweise über Notebooks interagiert werden kann.


2. Semantic Model (Default) (früher Dataset (Default)):
Ein automatisch erstelltes, gemanagtes Datenset, das auf den Tabellen im Lakehouse basiert und in Power BI verwendet werden kann.

3. SQL Endpoint:
Ein Read-Only SQL-Endpoint, der es ermöglicht, klassische SQL-Abfragen direkt auf dem Lakehouse auszuführen.
Weitere Informationen zu Lakehouse

Copilot in Fabric: Ein neuer Weg, um Fabric-Objekte zu erstellen

An der Ignite 2023 wurden ebenfalls vielversprechende neue Möglichkeiten durch die Integration von Microsoft Copilot in Fabric angekündigt. Durch Copilot sollen Dataflows, Data Pipelines, Code, ML- Models oder Reports mittels natürlicher Sprache erstellt werden können:

"With Copilot in Microsoft Fabric, you can use natural language to create dataflows and pipelines, write SQL statements, build reports, or even develop machine learning models." (Quelle 1, Quelle 2, November 2023)

Die Preview von Copilot wird stufenweise ausgerollt. Das Ziel ist, dass Kunden mit einer Fabric F64 Kapazität oder höher sowie einer Power BI Premium P1 Kapazität oder höher bis Ende März 2024 Zugriff auf Copilot Preview haben (Microsoft Blogpost).

Fazit: Fabric bietet neue Möglichkeiten in der Datenverarbeitung

Fabric, Microsofts neueste SaaS-Lösung, hat seit ihrer allgemeinen Verfügbarkeit Mitte November eine breite Palette von Möglichkeiten für Data Engineering, Data Science, KI und Reporting eröffnet. Diese Plattform ermöglicht den Aufbau von Datenpipelines, die Aufbereitung von Daten für Reporting-Zwecke und die Durchführung von Data Science-Aktivitäten. Die Integration von Copilot klingt vielversprechend, allerdings ist noch nicht beurteilbar, wie nützlich die erzeugten Objekte in der Praxis sind.

Das Ziel war es, Ihnen Fabric mit diesem Beitrag kurz und verständlich zu erklären und Ihnen einen ersten Überblick zu verschaffen. Falls Sie mehr erfahren möchten oder Potenzial für Ihre Anforderungen sehen, stehen wir Ihnen gerne zur Verfügung.

Weiterführende Ressourcen

Ankündigung Fabric Microsoft Build 2023

Ankündigung Fabric Microsoft Ignite 2023

Microsoft Learn - Fabric

Microsoft Blog - Fabric GA Announcment

Microsoft Ignite 2023 - Book of News

Bildquelle: Microsoft

Wir helfen Ihnen dabei, das Beste aus Fabric herauszuholen und Ihre Datenverarbeitung nahtlos zu optimieren.

Simon Würsten