Credit Card Fraud Detection (AWS SageMaker)

Abgeschlossen

End-to-End-ML-Pipeline zur Kreditkartenbetrugs-Erkennung auf AWS SageMaker, mit Fokus auf Class-Imbalance-Handling, Threshold-Optimierung für Business-Entscheide und der Entwicklung wiederverwendbarer, domänenagnostischer ML-Frameworks.

Technologien

AWS SageMakerAWS S3AWS AthenaPythonXGBoostscikit-learnSHAPimbalanced-learnJupyter

Problem

Betrugsfälle machen nur 0,17 % der Transaktionen aus. Ein naives Modell erreicht 99,83 % Accuracy, indem es immer „legitim" vorhersagt — Accuracy allein ist also irreführend. Die eigentliche Herausforderung liegt im richtigen Precision-Recall-Kompromiss basierend auf Business-Kostenannahmen.

Ansatz

7-phasiger ML-Workflow: Initial Data Assessment → Feature Engineering → EDA & Visualisierung → Baseline Modeling (Class Weights, SMOTE, Undersampling) → Threshold-Optimierung. Parametrisierte Python-Scripts und domänenagnostische Claude-Prompts für jede Phase.

Ergebnis

Betrugserkennungsmodell mit optimiertem Klassifikationsschwellenwert und vollständig dokumentiertem, wiederverwendbarem ML-Workflow-Framework, das auf jede Klassifikationsaufgabe anwendbar ist.

Learnings

AUC-PR ist bei unbalancierten Datensätzen aussagekräftiger als Accuracy; Threshold-Selektion ist ein Business-Entscheid, kein Modellparameter; Framework-Generalisierung von domänenspezifisch zu domänenagnostisch steigert langfristigen Wiederverwendungswert.

Relevanz

Zeigt ML Engineering, AWS SageMaker Integration, AI-gestützte Entwicklungs-Workflows, wiederverwendbares Framework-Design und End-to-End-Denken von Rohdaten bis zum Business-Entscheid.

Architektur

Vollbild öffnen ↗