← Zurück zu Projekten

Airbnb Listings Pipeline

Abgeschlossen

Batch-Datenpipeline, die periodisch Airbnb-Listing-Snapshots aus dem Inside-Airbnb-Datensatz abruft, in MinIO speichert und für die historische Trendanalyse des Londoner Kurzzeitvermietungsmarkts in PostgreSQL lädt.

Technologien

Apache AirflowMinIOPostgreSQLApache SparkMetabaseDockerAstro SDKPython

Problem

Manuelle Erfassung und Beladung von Airbnb-Listing-Daten für Trendanalysen ist fehleranfällig und nicht reproduzierbar im größeren Maßstab.

Ansatz

HTTP-Sensor-basiertes Polling mit mode="reschedule" zur Freigabe von Worker-Slots, Astro SDK nativer PostgreSQL-Loader für Bulk-Ingestion, MinIO als lokaler S3-kompatibler Objektspeicher.

Ergebnis

Automatisierte, reproduzierbare Pipeline für historische Airbnb-Trendanalysen in London mit vollständigem lokalem Docker-basierten Entwicklungsstack.

Learnings

Browser User-Agent Header sind notwendig, um HTTP-403-Sperren zu vermeiden; XCom sollte nur Keys, keine Roh-Bytes enthalten; Reschedule-Mode gibt Worker-Slots frei; nativer DB-COPY ist um Größenordnungen schneller als zeilenweises Insert.

Relevanz

Zeigt sauberes ETL-Design, Sensor-Architektur, Data-Warehouse-Beladungsmuster und reproduzierbare lokale Entwicklungsinfrastruktur.