Matillion ETL – Datenintegration für und in der Cloud
Seit dem ersten Entwurf des Data Warehouse Konzepts ist viel Zeit verstrichen. Neue Technologietrends und Innovationen sorgen für eine stetige Veränderung. Einer dieser Trends, der aktuell sehr hohe Aufmerksamkeit genießt, ist die Cloud. Durch das Auslagern der Infrastruktur in die Cloud versprechen sich Unternehmen Skalierbarkeit, Mobilität und die Abgabe von Aufgaben bezüglich Inhouse Servern an die Cloud-Dienstleister. Ein passendes ETL-Tool für die Cloud-Strategie zu finden ist eine große Herausforderung, weil die Palette von Cloud-fähigen ETL-Tools auf dem Markt schier unendlich ist und stetig wächst. Im Rahmen unserer Blogserie stellen wir einige Cloud-fähige ETL-Tools vor, beginnend mit Matillion ETL in diesem Artikel.
Was ist Matillion ETL und wie kann es eingeordnet werden?
Matillion ETL ist eine Cloud native Komplettlösung für die Extraktion und das Laden von Daten in das Data Warehouse sowie für die Transformation von Daten, welche sich im Data Warehouse befinden. Für das Verständnis bezüglich des gleich erläuterten Workflows von Matillion ETL wird zunächst auf die zwei verschiedenen Job-Arten von Matillion ETL eigegangen.
Prinzipiell gibt es zwei verschiedene Arten, welche jeweils einen eigenen Aufgabenbereich abdecken.
- Orchestration Job (EL): Die Hauptaufgabe des Orchestration Jobs ist das Erstellen von DDL-Statements (Create, Drop und Alter) und das Laden aus externen Datenquellen.
- Transformation Job (T): Der Transformation Job wird für die Transformation von Daten verwendet, welche sich schon im Data Warehouse befinden. Dies beinhaltet das Filtern von Daten, das Ändern der Datentypen oder das Säubern von Zeilen.
Wie in Abbildung 1 dargestellt, werden die Quelldaten zunächst durch einen Orchestration Job aus dem Source Layer extrahiert und in das Data Warehouse geladen. Hier bietet Matillion ETL viele Konnektoren wie APIs, Applikationen, lokale Datenbanken, Dateien, NoSQL oder auch Objektspeicher. Anschließend werden die Daten durch Transformation Jobs im Data Warehouse transformiert, wobei die Daten wie bei einem klassischen ELT-Tool das Data Warehouse auch nicht mehr verlassen. Nachdem die Daten transformiert wurden, können anschließend BI-Tools und andere Datenkonsumenten auf aggregierte Daten zugreifen.
Welche wichtigen Fakten sollte ich über Matillion ETL wissen?
Nachdem der Leser einen ersten Eindruck des Tools gewinnen konnte, wird im folgenden Matillion nochmal kurz vorgestellt.
- Matillion: Matillion ETL ist ein ETL/ELT Tool, welches speziell auf Cloud-Datenbanken als Zieldatenbank spezialisiert ist. Es wurde 2011 gegründet und unterstützt seit 2017 auch die Snowflake als Zieldatenbank.
- Funktion: Es ist ein modernes browserbasierte UI-Tool mit push down ELT-Funktionalitäten, welches die Rechenleistung der Zieldatenbank verwendet.
- Zieldatenbank: Als Zieldatenbank werden die vier großen Cloud-Datenbanken Amazon Redshift, Google Big Query, Snowflake und Azure Synapse unterstützt, sowie die auf Data Lakes spezialisierten Datenbanken Databricks und DELTA LAKE.
- Instanzgrößen: Instanzen für Matillion ETL gibt es in AWS, GCP und Azure. Die Instanzgrößen werden in T-Shirt Größen gegliedert (S bis 2Xlarge) mit Unterschieden in der Anzahl der gleichzeitig ausführbaren Tasks, der gleichzeitigen Nutzer der Instanz, der Umgebungen (Server) und dem Support vom Enterprise Mode.
- Preis: Preislich gestalten sich die Instanzgrößen von $1,79 pro genutzte Stunde (M), bis zu $6,49 pro genutzte Stunde (XLarge). Die Größen 2Xlarge und Enterprise sind verhandelbar.
Was zeichnet Matillion ETL aus?
Um einen Einblick in die Eigenheiten von Matillion zu bekommen, werden im Folgenden sieben Eigenschaften von Matillion benannt und genauer beleuchtet.
- Drag-And-Drop User Interface mit hoher Usability: Matillion ETL verwendet ein Drag-And-Drop User Interface, welches das Arbeiten sehr intuitiv gestaltet und eine hohe Usability aufweist.
- Data Lineage auf Spaltebene:Bezüglich der Data Lineage verfügt Matillion ETL über die Möglichkeit, getätigte Transformationen in Form von SQL sowie die Herkunft einzelner Spalten innerhalb eines Transformation Jobs einzusehen.
- Integrierte Administrationsmöglichkeiten:Ein Administrator kann über sogenannte Nutzergruppen fast jede Funktion oder Service verwalten und spezifisch Rechte verteilen.
- Kollaborative Entwicklung in Echtzeit: Eine Matillioninstanz kann mehrere Nutzer gleichzeitig hosten, wobei getätigte Änderungen im Projekt für jeden Nutzer sofort sichtbar sind. Des Weiteren gibt es die Möglichkeit Projektversionen zu erstellen und diese auch durch eine Sperre vorübergehend zu schützen
- Wiederverwendbarkeit durch Shared Jobs:Es gibt die Möglichkeit komplette Orchestration Jobs in einer einzigen Komponente zusammenzufassen und diesen gezielt in anderen Jobs wiederzuverwenden.
- Echtzeitfeedback mit Datenvorschau für die ELT Erstellung:Während der Entwicklung der ELT-Prozesse gibt es durchgehend eine automatische Validierung der Erstellten Lieferstrecke, sowie eine Datenvorschau in Echtzeit für die Überprüfung der getätigten Transformationen
- Error Handling und Debugging:Durch die Verwendung von Transaktionskomponenten sowie Flow Komponenten ist es möglich Idempotente Jobs zu kreieren und Errors abzufangen. Entstandene Errors können anschließend detailliert und übersichtlich untersucht werden.
Ist Matillion ein ETL-Tool für meine Organisation?
Neben den genannten Eigenschaften ist es wichtig auch die Dinge zu beleuchten, welche mit den vorgestellten Eigenschaften von Matillion einhergehen. So sollte bedacht sein, dass die Nutzung von lokalen Zieldatenbanken nicht möglich ist oder auch eine Data Lineage auf Tabellenebene nicht eingesehen werden kann. Matillion hat allerdings viel Potenzial, wenn:
- eine Clouddatenbank als Zieldatenbank gewählt wurde.
- ein intuitives UI-Design gewünscht ist.
- ein schnelles Setup von großer Bedeutung ist.
- große Flexibilität in Bezug auf die Datentransformation gefordert wird.
- eine automatisierte Dokumentation und Data Lineage auf Spaltenebene essenziell sind.
- eine nachvollziehbare Historie durch git Anbindung eine wichtige Anforderung ist, weil mehrere Entwickler die Software kollaborativ nutzen werden.
Abschließend ist es noch wichtig zu erwähnen, dass bei der Auswahl eines geeigneten ETL-Tools nicht nur vermeintliche Stärken und Schwächen des Tools in Betracht gezogen werden sollten. Vielmehr ist es wichtig, dass Unternehmen in ihrer Toolauswahl weitere wichtige Faktoren, wie die Verfügbarkeit von Ressourcen, die Dringlichkeit der Einführung, Management strategische Sicht des Data Warehouse und Kompatibilität mit vorhandenen Systemen, in ihre Entscheidung mit einbeziehen sollten.
Falls dieser Artikel Interesse geweckt hat, folgt gerne unserer Blogserie für weitere spannende Artikel rund um BI in der Cloud. Kommt auch gerne persönlich auf uns zu, wenn Fragen bezüglich Matillion ETL noch offengeblieben sind. Wir freuen uns auf einen persönlichen Austausch.
Hier findest du unsere weiteren Cloud-BI Blogbeiträge
(1) - Keine Schneeballschlacht mit Daten
(2) - Snowflake – Getting Started #1 Erstellung eines kostenlosen Testaccounts und Erklärung der UI
(3) - Matillion ETL – Datenintegration für und in der Cloud
(4) - Snowflake – Getting Started #2 Erstellung eines Virtual Warehouses und einer Datenbank
(5) - Matillion ETL - Hands On