Collection de travaux pratiques de Machine Learning couvrant la réduction de dimensionnalité, le clustering et la classification, appliqués sur des datasets réels.
Dataset Iris (classification de fleurs : Setosa, Versicolor, Virginica)
- Visualisation 3D des individus (Sepal.Length, Petal.Length, Sepal.Width)
- ACP avec et sans standardisation des données
- Cercle des corrélations et biplot
- Test des bâtons brisés (scree plot) — sélection du nombre de composantes
- Analyse des eigenvalues et % de variance expliquée
- Saturations (factor loadings) des variables sur les composantes principales
- Résultat : 2 composantes expliquent 100% de la variance ;
petal.length= variable la plus contributive (CP1)
Dataset Decathlon
- ACP sur les performances des athlètes
- Analyse des contributions par épreuve
K-Means
- Génération de données artificielles (
make_blobs,make_moons) - Méthode du coude pour déterminer k optimal
- Score de silhouette
Clustering Hiérarchique Agglomératif
- Dendrogrammes (linkage : ward, complete, average)
AgglomerativeClusteringavec différentes métriques
Dataset Tinder
- Segmentation des profils utilisateurs par comportement
- K-Nearest Neighbors sur dataset Iris
- Évaluation des performances (accuracy, matrice de confusion)
- Influence du paramètre k sur les frontières de décision
pip install pandas numpy matplotlib scikit-learn scipy jupyter
jupyter notebook "Machine Learning.ipynb"