Skip to content

Data Processing Notebook#2

Open
alice39 wants to merge 17 commits into
errodd:mainfrom
Atlls:data-processing
Open

Data Processing Notebook#2
alice39 wants to merge 17 commits into
errodd:mainfrom
Atlls:data-processing

Conversation

@alice39

@alice39 alice39 commented Mar 19, 2026

Copy link
Copy Markdown
Collaborator

No description provided.

Atlls and others added 17 commits February 14, 2026 23:38
…tebook

This should be as an initial base which we could iterate and improve
the data preparation for the model.

This notebook includes the following:
  - Split dataset into training and test datasets by sklearn library
  - Extracting features from columns such as embedding, word count, etc
  - Feature selection, which drops comment text, and unnecesary columns
  - Sklearn pipelines, column transformer

Acked-by: Atlls <alejandroaigner1999@hotmail.com>
Signed-off-by: A.L.I.C.E <a@alice0.com>
The phase 3 contains two elements which are:

    - final feature matrices: this outputs the transformed dataset from
      original data in `data/` directory, along the needed columns
      to operate with.

    - artifacts persistence: this dumps the column transformer into
      preprocess_pipeline.joblib, and asso  dumps a tuple stored as
      (X_train_final, X_test_final, Y_train, Y_test) into
      split_data.joblib.

    - output summary: a summary about data processing notebook outputs,
      and some design choices..

Signed-off-by: A.L.I.C.E <a@alice0.com>
@alice39 alice39 requested a review from errodd March 19, 2026 02:04
@errodd

errodd commented Apr 2, 2026

Copy link
Copy Markdown
Owner

Para el EDA:

Puntos positivos

Se observa una mejora respecto a la entrega anterior.

  • El análisis del texto se mantiene como eje central del notebook.
  • Se trabaja la longitud de los comentarios de forma adecuada.
  • Se mejora el análisis de la distribución de etiquetas.
  • El flujo del notebook es claro y ejecuta sin errores.
  • Existe una mejor alineación con el problema de clasificación multietiqueta.

En general, el trabajo muestra progreso y mayor comprensión del dataset.


Aspectos a mejorar para siguientes entregas

Aunque el análisis es sólido, aún hay oportunidades importantes de mejora.

1. Análisis multietiqueta más profundo

El problema es multietiqueta, por lo que sería importante analizar:

  • cuántos comentarios tienen múltiples etiquetas activas
  • combinaciones frecuentes de etiquetas
  • co-ocurrencia entre clases

Esto permite entender mejor la complejidad del problema antes de modelar.

En general, el trabajo es sólido y muestra una mejora clara, pero aún puede fortalecerse en el análisis multietiqueta.

Nota actualizada: 18 puntos

@errodd

errodd commented Apr 2, 2026

Copy link
Copy Markdown
Owner

Para el data preparation:

Puntos positivos

  • El notebook presenta una estructura clara y bien organizada.
  • Se realiza correctamente la separación entre train y test.
  • Se generan features relevantes a partir del texto.
  • Se incorporan embeddings, lo cual es consistente con el enfoque del proyecto.
  • Se construye un preprocess_pipeline utilizando ColumnTransformer.
  • Se guardan artefactos que permiten continuar con la fase de modelado.
  • El notebook ejecuta sin errores y deja los datos listos para el siguiente paso.

En general, el trabajo está bien alineado con un flujo de Machine Learning más cercano a un entorno real.


Aspectos a mejorar para siguientes entregas

1. Definición del problema

Se trabaja correctamente con una única etiqueta (toxic) como target, simplificando el problema a clasificación binaria.
Esta decisión es válida, pero debería quedar explícitamente documentada en el notebook.


2. Documentación del feature engineering

Sería recomendable explicar con mayor claridad:

  • qué features se están generando
  • por qué se utilizan
  • cómo complementan los embeddings

Esto ayuda a conectar el procesamiento de datos con el comportamiento del modelo.


3. Consistencia del notebook

Se observan algunos detalles menores heredados de plantillas anteriores que deberían ajustarse al problema actual para mantener coherencia. (quedaron algunos prints que hacen referencia al titanic)


En general, el notebook tiene buena calidad, está correctamente estructurado y permite avanzar sin problemas a la fase de modelado.

Nota: 19 / 20

@alice39 alice39 mentioned this pull request Apr 17, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants