Batch Energy Analytics Pipeline (AWS)
AbgeschlossenServerlose Batch-Pipeline, die monatliche Stromerzeugungs-Daten aus der Ember API für 8 europäische Länder ingested, verschachteltes JSON via AWS Glue in Parquet transformiert und Energieproduktionstrends über ein Amazon-QuickSight-Dashboard visualisiert.
Technologien
Problem
Rohe Energiedaten der Ember API liegen als verschachteltes JSON vor, das nicht direkt abfragbar ist. Es fehlte ein einheitlicher Überblick über europäische Stromerzeugungs-Trends nach Land und Energiequelle.
Ansatz
Python-Ingestion-Script → S3 Raw Layer (Hive-Style-Datums-Partitionierung) → AWS Glue ETL (Explode + Flatten Transforms) → S3 Processed Layer (Parquet/Snappy) → Glue Crawler → Athena-Validierung → QuickSight-Dashboard.
Ergebnis
Interaktives Dashboard mit Stromproduktionstrends für 8 europäische Länder von 2020 bis 2026, mit monatlichem Budget-Cap von 50 USD.
Learnings
AWS Glue erfordert explizite Explode+Flatten-Transforms für verschachtelte JSON-APIs; QuickSight-Datumsspalten müssen als Date typisiert sein (nicht String); QuickSight-Berechtigungen werden separat von AWS IAM konfiguriert.
Relevanz
Cloud-native End-to-End AWS-Datenpipeline von der API-Ingestion bis zur Business-Visualisierung; zeigt serverlose ETL-Architektur und Integration von AWS-Analytics-Diensten.