← Zurück zu Projekten

Batch Energy Analytics Pipeline (AWS)

Abgeschlossen

Serverlose Batch-Pipeline, die monatliche Stromerzeugungs-Daten aus der Ember API für 8 europäische Länder ingested, verschachteltes JSON via AWS Glue in Parquet transformiert und Energieproduktionstrends über ein Amazon-QuickSight-Dashboard visualisiert.

Technologien

AWS S3AWS Glue ETLAWS Glue CrawlerAmazon AthenaAmazon QuickSightPythonboto3

Problem

Rohe Energiedaten der Ember API liegen als verschachteltes JSON vor, das nicht direkt abfragbar ist. Es fehlte ein einheitlicher Überblick über europäische Stromerzeugungs-Trends nach Land und Energiequelle.

Ansatz

Python-Ingestion-Script → S3 Raw Layer (Hive-Style-Datums-Partitionierung) → AWS Glue ETL (Explode + Flatten Transforms) → S3 Processed Layer (Parquet/Snappy) → Glue Crawler → Athena-Validierung → QuickSight-Dashboard.

Ergebnis

Interaktives Dashboard mit Stromproduktionstrends für 8 europäische Länder von 2020 bis 2026, mit monatlichem Budget-Cap von 50 USD.

Learnings

AWS Glue erfordert explizite Explode+Flatten-Transforms für verschachtelte JSON-APIs; QuickSight-Datumsspalten müssen als Date typisiert sein (nicht String); QuickSight-Berechtigungen werden separat von AWS IAM konfiguriert.

Relevanz

Cloud-native End-to-End AWS-Datenpipeline von der API-Ingestion bis zur Business-Visualisierung; zeigt serverlose ETL-Architektur und Integration von AWS-Analytics-Diensten.