Guide EDA-ML — Exploration des données pour le Machine Learning

Guide structuré et complet pour réaliser une Exploration des Données (EDA) dans un projet de Machine Learning, avec des étapes détaillées et des exemples de code Python.

Contenu

Le guide EDA_guide.md couvre 10 étapes essentielles :

Étape	Description
1. Comprendre le problème	Objectif métier, variables clés, contraintes, hypothèses
2. Chargement & exploration	`df.head()`, `df.shape`, `df.info()`, cardinalité
3. Qualité des données	Valeurs manquantes, doublons, types, outliers
4. Analyse univariée	Statistiques descriptives, distributions numériques et catégorielles
5. Analyse bivariée & multivariée	Corrélations, scatter plots, heatmaps, VIF, PCA
6. Feature engineering	Nouvelles variables, encodage, transformations (log, Box-Cox)
7. Détection des anomalies	Boxplots, Z-score, IQR, Isolation Forest, DBSCAN, LOF
8. Gestion des valeurs manquantes	Imputation simple (médiane, mode) et avancée (KNN, EM)
9. Validation & sauvegarde	Récapitulatif des transformations, vérifications finales
10. Synthèse & prochaines étapes	Découvertes, points de vigilance, sélection de modèles

Utilisation

Ce guide est conçu comme une checklist de référence à suivre au début de tout projet ML.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Étape 2 — Exploration initiale
df = pd.read_csv('data.csv')
print(df.shape)
print(df.info())
print(df.describe())

# Étape 3 — Valeurs manquantes
print(df.isnull().sum())
sns.heatmap(df.isnull(), cbar=False)

# Étape 5 — Corrélations
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')

Structure du repo

EDA-ML-Process/
├── EDA_guide.md    # Guide complet EDA en 10 étapes
└── README.md

Stack technique

Auteur

Emmanuel KOURAOGO GitHub · Email

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
EDA_guide.md		EDA_guide.md
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Guide EDA-ML — Exploration des données pour le Machine Learning

Contenu

Utilisation

Structure du repo

Stack technique

Auteur

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

Guide EDA-ML — Exploration des données pour le Machine Learning

Contenu

Utilisation

Structure du repo

Stack technique

Auteur

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages