Wachsende Datenmengen, immer komplexere Datenlandschaften und akuter Fachkräftemangel stellen CFOs und Controller im Mittelstand vor große Herausforderungen. Insbesondere die Aufbereitung von (Roh-)daten für Analysen und Reports stellt häufig einen großen “Pain Point” dar. Nicht selten entfallen bis zu 80% der Arbeitszeiten im Analyse-/Reporting-Prozess auf das Sichten und Aufbereiten der Daten. Lediglich 20% der Zeit verbleibt für die eigentlich wertschöpfende Arbeit – die Analyse der Daten.
Die Automatisierung der Datenbereitstellung wird in der Praxis häufig als “ETL” bezeichnet. Die Abkürzung ETL steht für die Begriffe Extract, Transform und Load und beschreibt den Prozess, in dem Daten aus verschiedenen Datenquellen automatisiert zusammengeführt und aufbereitet werden, um diese im Anschluss für verschiedene Anwendungsfälle bereitzustellen.
Extrahieren: Bei der Extraktion werden Daten aus verschiedenen Quellen extrahiert und für die Transformation bereitgestellt. Die Quellen können aus verschiedenen Informationssystemen wie Dateien, ERP-Systeme, Datenbanken oder Web-APIs mit verschiedenen Datenformaten und -strukturen sein.
Transformieren: Die aus den unterschiedlich strukturierten Quellen stammenden Daten, müssen in ein einheitliches Datenschema transformiert werden. Die Transformationen besteht im Wesentlichen aus der Datenbereinigung, der Konsolidierung (Anpassung der Daten an die vorgegebenen Zielstrukturen), sowie der Validierung. Typische Transformationen sind:
Laden: Beim Laden müssen die Daten aus dem Datenpool in das Data Warehouse integriert werden. Dabei wird eine Versionshistorie angefertigt, mit der Änderungen protokolliert werden können, so dass auch auf ältere Daten zurückgegriffen werden kann.
Häufig kommt der ETL-Prozess im Umfeld von Big-Data- und Business-Intelligence-Anwendungen zum Einsatz. Besonders die Verarbeitung großer Datenmengen profitiert von der strukturierten ETL-Vorgehensweise. Sind zum Beispiel Informationen auf verschiedenen Subsystemen verteilt, liegen redundant vor oder haben eine unterschiedliche Struktur, ist die Anwendung des ETL-Prozesses sinnvoll, da der ETL-Prozess die automatisierte Zusammenführung,Aufbereitung und Bereitstellung von Daten übernimmt.
Eine vollautomatisierte Datenpipeline ermöglicht es Ihrem Unternehmen, Daten direkt an der Quelle zu extrahieren, sie zu transformieren und mit Daten aus anderen Quellen zusammenzuführen, bevor sie in Ihre Ziel-Datenbank geschrieben werden, um von dort aus in nachgelagerte Systeme und Analyseplattformen geladen zu werden. Die Data Pipeline macht somit manuelle Arbeitsschritte überflüssig und stellt die zuverlässige Bereitstellung von sauberen Daten für Analysen, Reports aber auch für andere Zwecke wie zum Beispiel Machine Learning Projekte sicher.
Drei Vorteile einer vollautomatisierten Datenpipeline sind folgende:
Im Zuge Digitalisierungs-Diskussion sind „Buzzwords“ wie Big-Data und Process-Automation in aller Munde. Unternehmen beschäftigen sich schon seit einigen Jahren mit diesen Themen. Dennoch ist festzustellen, dass ein Großteil der Unternehmen (insbesondere der Mittelstand) sich schwertut, diese Technologien zu implementieren. Dies hat laut der Mittelstandsstudie “Digital in NRW” mitunter folgende Gründe:
1) Unabgestimmte Strategien:
78% der befragten Unternehmen berichten, dass man wisse, dass was getan werden muss. Man sei sich jedoch nicht sicher, welche Möglichkeiten es gibt oder welche Use-Cases angegangen werden sollen, und welche Mitarbeiter die neuen Themen übernehmen sollen.
2) Unzureichende Datenqualität:
76% der befragten Unternehmen haben quantitative sowie qualitative Probleme mit Ihren Daten. Es kann sein, dass die notwendigen Daten nicht vor, da Sie nicht erfasst wurden, oder die erfassten Daten sind unvollständig, verunreinigt oder fehlerhaft
3) Fehlende personelle und technische Ressourcen
Etwa 70% gaben an, dass die Mitarbeiter bereits durch das Tagesgeschäft voll ausgelastet seien, neues Fachpersonal fast unmöglich zu finden sei, und dass die technischen Möglichkeiten fehlen.
Falls Sie nun das Thema Data-Automation angehen möchten, ist es wichtig, eine Strategie zu formulieren, die auf Ihre Unternehmensprozesse abgestimmt ist. Hier sind einige Punkte, die Ihnen bei der Ausarbeitung einer Strategie helfen können:
1) Problemidentifizierung:
Überlegen Sie, welche Abteilungen von Automatisierungen profitieren könnten, und stellen Sie sich Fragen wie: “In welchen Bereichen verbringen die Mitarbeiter viel Zeit mit manueller Arbeit?” oder “Welche Aspekte Ihrer Daten-Prozesse sind, fehleranfällig?”. Erstellen Sie eine Liste aller langweiligen und monotonen Aufgaben, die automatisiert werden könnten.
2) Daten-Sichtung:
Verschaffen Sie sich in ersten Schritt einen Überblick über Ihre Datenlandschaft und identifizieren Sie die Quelldaten, die für den Use-Case Ihrer Wahl relevant sein könnten, Darüber hinaus sollten Sie ein Verständnis über Ihre Daten-Prozesse bekommen. Das heißt, Sie sollten verstehen, wo Daten von A nach B fließen, wer für diese Prozesse verantwortlich ist bzw. Zugriff auf die Daten hat, und was getan werden muss, um auf diese Daten zuzugreifen (Zugriffsrechte).
3) Ziel-Datenmodell und Identifizierung von Transformationen:
Bestimmen Sie im nächsten Schritt, wie Ihre Zieldaten aussehen sollen. Basierend darauf ermitteln Sie die Transformationsschritte, die erforderlich sind, um die Quelldaten in das Zielformat umzuwandeln.
4) Umsetzung und Testing des ETL-Prozesses:
Setzen Sie die beschriebenen Anforderungen in einem ETL-Tool um, und testen Sie, ob die Zieldaten Ihren Anforderungen entsprechen, bzw. fehlerfrei sind.
5) Planen Sie Daten-Aktualisierungen:
Sobald Ihre Datapipeline steht, möchten Sie sicherstellen, dass Ihre Zieldaten automatisch, also ohne menschliches Zutun zu den gewünschten Zeitpunkten bereitgestellt werden.
Die zunehmende Digitalisierung vieler Geschäftsprozesse, und Technologien wie Cloud-Computing, Machine Learning und IOT werden in den nächsten Jahren zu immer komplexeren Datenlandschaften sowie exponentiell wachsenden Datenmassen in den Unternehmen führen. Zeitgleich müssen Entscheidungsträger in einer immer schneller werdenden Geschäftswelt, in Echtzeit Zugang zu sauberen Daten haben, um fundierte Entscheidungen treffen zu können. Die Daten-Automatisierung wird in diesem Zusammenhang unabdingbar, da sie Entscheidern erst die Möglichkeit gibt, Verbesserungsmöglichkeiten zu identifizieren, um Ihr Unternehmen schnell und agil steuern zu können: eine Notwendigkeit in der heutigen digitalen Welt.