Skip to content

Tresssco/Unsupervised-Learning-Country-Clustering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Aprendizaje No Supervisado – Clustering de Países

Proyecto de aprendizaje no supervisado que aplica K-Means y PCA para segmentar 167 países según sus indicadores socioeconómicos y de salud, con el objetivo de identificar los países más necesitados e informar la estrategia de inversión humanitaria de la Fundación Ortega.


Descripción del problema

Amancio Ortega quiere dejar un legado y ha contactado con el IES de Teis para que le ayudemos a identificar los países más necesitados del mundo. A partir de un dataset con información socioeconómica y sanitaria de 167 países, aplicamos técnicas de clustering no supervisado para categorizarlos y ayudar a la Fundación Ortega a decidir dónde abrir hospitales, escuelas y comedores sociales.


Dataset

El dataset contiene 167 países y 9 variables numéricas, sin ningún valor nulo:

Variable Descripción
mort_inf Nº de niños menores de 5 años muertos por cada 1.000 nacimientos
exportaciones Exportaciones de bienes y servicios per cápita (% del PIB)
salud Gasto total en salud per cápita (% del PIB)
importaciones Importaciones de bienes y servicios per cápita (% del PIB)
ingresos Ingresos netos por persona
inflacion Tasa de crecimiento anual del PIB total
esp_vida Esperanza de vida promedio al nacer
num_hijos Número medio de hijos por mujer
pib PIB per cápita

Algoritmos utilizados

  • K-Means — algoritmo principal de clustering, con k=3 determinado mediante el Método del Codo y el Silhouette Score.
  • PCA (Análisis de Componentes Principales) — reducción de dimensionalidad de 9 a 5 componentes, conservando el 94.5% de la varianza.

Etapas del proyecto

  1. Importación del dataset y análisis inicial
  2. EDA: distribuciones, correlaciones y detección de outliers
  3. Preprocesado: estandarización con StandardScaler
  4. Determinación del k óptimo (Elbow + Silhouette)
  5. Entrenamiento del modelo K-Means final (k=3)
  6. Análisis de componentes principales (PCA)
  7. Visualización 2D de los clústeres
  8. Visualización geográfica con GeoPandas
  9. Conclusiones e informe para la Fundación Ortega

Resultados

El modelo identifica tres grupos de países con perfiles claramente diferenciados:

Clúster Perfil Nº países Mortalidad inf. Esperanza de vida PIB/hab Prioridad
Clúster 1 Desarrollados ~50 ~5‰ ~80 años ~42.000$ Sin intervención
Clúster 0 En desarrollo ~70 ~22‰ ~72 años ~6.500$ Intervención secundaria
Clúster 2 Subdesarrollados ~47 ~95‰ ~59 años ~1.800$ Prioridad máxima

La recomendación principal es que la Fundación Ortega concentre sus recursos en el Clúster 2, formado principalmente por países del África Subsahariana, donde la mortalidad infantil es 19 veces mayor que en los países desarrollados y la esperanza de vida es 21 años inferior.

El mapa mundial generado con GeoPandas muestra la distribución geográfica de los tres clústeres:

Clustering de países — K-Means (k=3)


Instalación y uso

1. Clona el repositorio

git clone https://github.com/Tresssco/Unsupervised-Learning-Country-Clustering.git
cd Unsupervised-Learning-Country-Clustering

2. Crea un entorno virtual

python -m venv venv
source venv/bin/activate        # Linux/Mac
venv\Scripts\activate           # Windows

3. Instala las dependencias

pip install -r requirements.txt

4. Ejecuta el notebook

jupyter notebook notebook.ipynb

Tecnologías

  • Python 3.x
  • Pandas / NumPy
  • Scikit-learn
  • Matplotlib / Seaborn
  • GeoPandas
  • Jupyter Notebook

Autor

Jorge Escolano González
IES de Teis — Vigo
Módulo: Machine Learning

About

Aplicación de K-Means y PCA sobre un dataset de 167 países para identificar grupos según indicadores socioeconómicos y de salud. Incluye visualización geográfica con GeoPandas.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors