Der Supervised Data Lake

Ein Data Lake dient als Grundlage für Big Data-Initiativen sowie als Ergänzung oder Ersatz für ein bestehendes Data Warehouse. Eine Organisation profitiert an vielen Stellen durch die gewonnene Flexibilität. Doch ohne Konzept und strukturiertes Vorgehen wird ein Data Lake schnell zum Data Swamp, der nur noch Kosten verursacht und keinerlei Mehrwert liefert.

Drucken

Data Lake - Verkürzen Sie die Time-To-Analysis

Ein Data Lake resultiert in einer für Analysezwecke optimierten zentralen Datenplattform, die Daten aus mehreren, in der Regel heterogenen Quellen bereitstellt. Die Zusammenführung und Verdichtung ist dabei keine notwendige Bedingung. Konzeptions-Integrationsaufwände werden dadurch drastisch reduziert. Einem Wunsch nach Bereitstellung neuer Daten kann somit sehr schnell entgegengekommen werden. Big Data-Technologien ermöglichen dabei sehr günstige Datenhaltung und -verarbeitung. Neben einer sehr schnellen und agilen Bereitstellung neuer Daten – bspw. für die prototypische Entwicklung digitaler Lösungen – kann eine gewachsene Systemlandschaft von der Ergänzung eines Data Lake auf mehreren Ebenen profitieren:

  • Sehr schnelle und agile Bereitstellung neuer Daten
  • Data Lab für Analytics-Abteilung
  • Landing-Zone für ETL/ELT (Extraktionspuffer)
  • DWH Off-Loading
  • Aktives Archiv für Quellsysteme
  • Integrations-Inkubator für neu anzubindende Datenquellen
  • Voraggregation und -verarbeitung von Massendaten
  • Herausfinden von Transformations-Logiken für die Überführung in das Standard-ETL

Ihr individueller Supervised Data Lake

Die Erschaffung eines unternehmensweiten Supervised Data Lake ist ein hochgradig kundenindividuelles und komplexes Projekt – nicht nur auf technologischer Ebene. Der Supervised-Ansatz folgt dem Data Governance First Gedanken unter der Prämisse größtmöglicher Flexibilität. Entwickelt wurde dieser mit den Erkenntnissen jahrelanger Erfahrungen im Datenmanagement. Ein flexibles Konzept, wie der Data Lake, bietet nicht nur die Möglichkeit vorhandene Analyselandschaften zu modernisieren oder zu ersetzen. Getreu dem Motto „Think Big, Start Small, Act Now“ erarbeiten wir mit Ihnen gemeinsam ein für Sie passendes Konzept, begleiten Sie bei der Einführung des Data Lake und der Umsetzung erster Use Cases mit diesem.

Die Erschaffung eines unternehmensweiten Supervised Data Lake ist ein hochgradig kundenindividuelles und komplexes Projekt – nicht nur auf technologischer Ebene. Wir führen Sie dabei zum Erfolg.

Sie haben Fragen?

Wir beraten Sie gerne.

Die Initialisierung eines Supervised Data Lake

Für eine erfolgreiche Einführung durchlaufen wir mit Ihnen gemeinsame folgende Phasen:

1. Erarbeiten der Vision, Ziele und Rahmenbedingungen

  • Sensibilisierung für Digitalisierung und Big Data
  • Treiber und Motivation
  • Vorgehen
  • Technologie / Konzepte
  • Use Cases
  • Prozesse / Organisation
  • Standortbestimmung
  • Basic Governance
  • Bestimmung der langfristigen Nutzergruppen
  • Vendorstrategie

2. Konzeption des Data Lake

  • Abhängig vom Ziel des Data Lake und den Basic Governance-Anforderungen wird ein kundenspezifisches Konzept erarbeitet
  • Sizing der Basis-Umgebung für die Ramp-Up Phase und Entwicklung der Scale-Out-Strategie

3. Implementierung der Basis-Umgebung

  • Die Basis-Umgebung bezeichnet die Installation der Hadoop Komponenten, die im Softwareportfolio gesetzt sind
  • Anpassen der Infrastruktur (Firewall, Proxies, …)
  • Anlegen des Metadatenkonzeptes
  • Anlegen des Bereinigungskonzeptes

4. Data Lake Ramp-Up

  • Ersten Case heraussuchen und mit einer ausgewählten Gruppe starten – Start Small
  • Die Erkenntnisse erfordern ggf. eine Anpassung des Konzeptes und der Parametrisierung der Basis-Umgebung
  • Anpassung der Data Governance-Regelungen

5. Laufende Korrektur und Evolution

  • Sowohl neue Technologien als auch Erkenntnisse aus dem laufenden Betrieb können zu einer Korrektur am Konzept und den Komponenten der Basis-Umgebung führen
  • Das Konzept sollte laufend auf Optimierungspotentiale und Übereinstimmung mit Compliance-Anforderungen geprüft werden
  • Erweiterung des Cluster

Der Supervised-Ansatz bringt den Unterschied

Mit dem Supervised-Ansatz werden innerhalb der Konzeption u. a. die folgenden Themen behandelt:

  • Kostenoptimierung durch die Auswahl optimaler Speicherformate, Entwicklung eines Speicherformat-Guide, optimale Replikationseinstellungen
  • Self-Service durch Bereitstellung von Data Upload-Möglichkeiten, umfangreiches Sandboxing, geringe Einschränkung im Softwareportfolio
  • Katalogisierung durch zentrales Register aller Datenquellen im Data Lake, fachliches Auszeichnen von Daten
  • Regulatorik u. a. durch Sicherstellung regulatorischer Anforderungen, Berücksichtigung von Mindest- und Maximalhaltedauern, Anonymisierung / Pseudonymisierung
  • Sicherheit u. a. durch Sicherstellung von Zugriffsbeschränkungen, Erstellung eines Berechtigungskonzeptes
  • Automatische Reinigung u. a. durch periodisches Löschen nicht mehr benötigter Daten, Säubern von Daten, welche den Mindestanforderungen nicht genügen
  • Anforderungen an die Datenaufnahme, u. a. Data Ownership, Metadatenanreicherung, Ablageortkonzept, Nomenklatur

Der Supervised Data Lake

INFOMOTION - we love data

Weiterführende Informationen

Ihr Ansprechpartner

Gert Jan Feick

Manager

T +49 69 97460-700

E-Mail senden