Credit Card Fraud Detection (AWS SageMaker)

Terminé

Pipeline ML de bout en bout pour la détection de fraude sur cartes de crédit sur AWS SageMaker, avec un accent sur la gestion du déséquilibre de classes, l'optimisation du seuil pour les décisions métier et le développement de frameworks ML réutilisables et agnostiques au domaine.

Technologies

AWS SageMakerAWS S3AWS AthenaPythonXGBoostscikit-learnSHAPimbalanced-learnJupyter

Problème

Les cas de fraude ne représentent que 0,17 % des transactions. Un modèle naïf atteint 99,83 % de précision en prédisant toujours « légitime » — la précision seule est donc trompeuse. Le vrai défi est de trouver le bon compromis précision-rappel basé sur les hypothèses de coûts métier.

Approche

Workflow ML en 7 phases : Évaluation initiale des données → Ingénierie des caractéristiques → EDA & Visualisation → Modélisation de base (poids de classe, SMOTE, sous-échantillonnage) → Optimisation du seuil. Scripts Python paramétrés et prompts Claude agnostiques au domaine pour chaque phase.

Résultat

Modèle de détection de fraude avec un seuil de classification optimisé et un framework de workflow ML entièrement documenté et réutilisable, applicable à toute tâche de classification.

Apprentissages

L'AUC-PR est plus informatif que la précision pour les datasets déséquilibrés ; la sélection du seuil est une décision métier, pas un paramètre de modèle ; généraliser les frameworks du domaine-spécifique vers l'agnostique augmente la valeur de réutilisation à long terme.

Pertinence

Démontre l'ingénierie ML, l'intégration AWS SageMaker, les workflows de développement assistés par IA, la conception de frameworks réutilisables et la pensée de bout en bout des données brutes à la décision métier.

Architecture

Ouvrir en plein écran ↗