Extract, Transform, Load

Definition

Akronym: ETL

Extraktion (Filterung)

  • Extraktion von Daten aus den Datenquellen
  • Einmalige Aufgabe: Festlegen der Aktualisierungsstrategie für die externe Aktualisierung des Data Warehouse
  • Periodische Aufgaben:
    • Erkennen von Datenänderungen bei den Datenquellen
    • Extraktion der Daten aus den Datenquellen
    • Übertragung der Daten in den Arbeitsbereich (Staging Area) des Data Warehouse‐Systems

Transformation (Harmonisierung, Verdichtung & Anreicherung)

Transformation als Bestandteil des ETL-Prozesses beinhaltet…

  • Filterung
    • Extraktion aus den operativen Datenquellen
    • Bereinigung inhaltlicher und syntaktischer Defekte(bezogen auf jeweils ein Attribut)
  • Harmonisierung
    • betriebswirtschaftliche Abstimmung der Daten
    • Problemfälle: Unterschiedliche Kodierungen, Synonyme, Homonyme(bezogen auf mehrere Attribute)
  • Aggregation
    • Verdichtung gefilterter und harmonisierter Daten (Summenbildung)
  • Anreicherung
    • Bildung relevanter Kennzahlen
  • Einmalige Aufgaben: Spezifikation der Datenintegration als Schematransformation (Integration der Teil‐Schemata der Datenquellen zum DW‐Schema) → Aufzulösende Konflikte
    • Benennungskonflikte (Homonyme & Synonyme bei Tabellendefinitionen & Attributen)
    • Strukturkonflikte (Inkonsistente Primär‐ & Fremdschlüssel, fehlende Attribute)
    • Datentypkonflikte (Inkompatible Datentypen bzw. Wertebereiche)
    • Codierungskonflikte (Inkompatible Codierung von Eigenschaftswerten)
    • Inkompatible Aggregationen von Kennzahlenwerten
    • Inkompatible Bildung abgeleiteter Kennzahlen
  • Periodische Aufgaben
    • Transformation der extrahierten Daten in ladbare Daten für das Data Warehouse → Data‐Migration (Syntax)
    • Dabei Datenbereinigung durch Data‐Scrubbing (Semantik)

Laden von Daten in das Data Warehouse

  • Einmalige Aufgabe: Festlegen der Aktualisierungsstrategie für interne Aktualisierung des Data Warehouse
  • Periodische Aufgaben:
    • Überprüfen von (referenziellen) Integritätsbedingungen
    • Sortieren von Daten
    • Aufbauen von Indizes & anderen Zugriffsstrukturen
    • Berechnen von Aggregationen
    • Historisierung von Daten (z.B. durch Zeitstempel)

Kontext

Weiterführende Beiträge


Navigation

Alphabetischer Index
Akronyme