Inhaltsverzeichnis
Extract, Transform, Load
Definition
Akronym: ETL
Extraktion (Filterung)
- Extraktion von Daten aus den Datenquellen
- Einmalige Aufgabe: Festlegen der Aktualisierungsstrategie für die externe Aktualisierung des Data Warehouse
- Periodische Aufgaben:
- Erkennen von Datenänderungen bei den Datenquellen
- Extraktion der Daten aus den Datenquellen
- Übertragung der Daten in den Arbeitsbereich (Staging Area) des Data Warehouse‐Systems
Transformation (Harmonisierung, Verdichtung & Anreicherung)
Transformation als Bestandteil des ETL-Prozesses beinhaltet…
- Filterung
- Extraktion aus den operativen Datenquellen
- Bereinigung inhaltlicher und syntaktischer Defekte(bezogen auf jeweils ein Attribut)
- Harmonisierung
- betriebswirtschaftliche Abstimmung der Daten
- Problemfälle: Unterschiedliche Kodierungen, Synonyme, Homonyme(bezogen auf mehrere Attribute)
- Aggregation
- Verdichtung gefilterter und harmonisierter Daten (Summenbildung)
- Anreicherung
- Bildung relevanter Kennzahlen
- Einmalige Aufgaben: Spezifikation der Datenintegration als Schematransformation (Integration der Teil‐Schemata der Datenquellen zum DW‐Schema) → Aufzulösende Konflikte
- Benennungskonflikte (Homonyme & Synonyme bei Tabellendefinitionen & Attributen)
- Strukturkonflikte (Inkonsistente Primär‐ & Fremdschlüssel, fehlende Attribute)
- Datentypkonflikte (Inkompatible Datentypen bzw. Wertebereiche)
- Codierungskonflikte (Inkompatible Codierung von Eigenschaftswerten)
- Inkompatible Aggregationen von Kennzahlenwerten
- Inkompatible Bildung abgeleiteter Kennzahlen
- Periodische Aufgaben
- Transformation der extrahierten Daten in ladbare Daten für das Data Warehouse → Data‐Migration (Syntax)
- Dabei Datenbereinigung durch Data‐Scrubbing (Semantik)
Laden von Daten in das Data Warehouse
- Einmalige Aufgabe: Festlegen der Aktualisierungsstrategie für interne Aktualisierung des Data Warehouse
- Periodische Aufgaben: