Data Processing Notebook by alice39 · Pull Request #2 · errodd/Jigsaw-Toxic-Comment-Classification-ml

alice39 · 2026-03-19T02:04:33Z

No description provided.

…tebook This should be as an initial base which we could iterate and improve the data preparation for the model. This notebook includes the following: - Split dataset into training and test datasets by sklearn library - Extracting features from columns such as embedding, word count, etc - Feature selection, which drops comment text, and unnecesary columns - Sklearn pipelines, column transformer Acked-by: Atlls <alejandroaigner1999@hotmail.com> Signed-off-by: A.L.I.C.E <a@alice0.com>

The phase 3 contains two elements which are: - final feature matrices: this outputs the transformed dataset from original data in `data/` directory, along the needed columns to operate with. - artifacts persistence: this dumps the column transformer into preprocess_pipeline.joblib, and asso dumps a tuple stored as (X_train_final, X_test_final, Y_train, Y_test) into split_data.joblib. - output summary: a summary about data processing notebook outputs, and some design choices.. Signed-off-by: A.L.I.C.E <a@alice0.com>

Signed-off-by: A.L.I.C.E <a@alice0.com>

errodd · 2026-04-02T05:09:50Z

Para el EDA:

Puntos positivos

Se observa una mejora respecto a la entrega anterior.

El análisis del texto se mantiene como eje central del notebook.
Se trabaja la longitud de los comentarios de forma adecuada.
Se mejora el análisis de la distribución de etiquetas.
El flujo del notebook es claro y ejecuta sin errores.
Existe una mejor alineación con el problema de clasificación multietiqueta.

En general, el trabajo muestra progreso y mayor comprensión del dataset.

Aspectos a mejorar para siguientes entregas

Aunque el análisis es sólido, aún hay oportunidades importantes de mejora.

1. Análisis multietiqueta más profundo

El problema es multietiqueta, por lo que sería importante analizar:

cuántos comentarios tienen múltiples etiquetas activas
combinaciones frecuentes de etiquetas
co-ocurrencia entre clases

Esto permite entender mejor la complejidad del problema antes de modelar.

En general, el trabajo es sólido y muestra una mejora clara, pero aún puede fortalecerse en el análisis multietiqueta.

Nota actualizada: 18 puntos

errodd · 2026-04-02T05:21:23Z

Para el data preparation:

Puntos positivos

El notebook presenta una estructura clara y bien organizada.
Se realiza correctamente la separación entre train y test.
Se generan features relevantes a partir del texto.
Se incorporan embeddings, lo cual es consistente con el enfoque del proyecto.
Se construye un preprocess_pipeline utilizando ColumnTransformer.
Se guardan artefactos que permiten continuar con la fase de modelado.
El notebook ejecuta sin errores y deja los datos listos para el siguiente paso.

En general, el trabajo está bien alineado con un flujo de Machine Learning más cercano a un entorno real.

Aspectos a mejorar para siguientes entregas

1. Definición del problema

Se trabaja correctamente con una única etiqueta (toxic) como target, simplificando el problema a clasificación binaria.
Esta decisión es válida, pero debería quedar explícitamente documentada en el notebook.

2. Documentación del feature engineering

Sería recomendable explicar con mayor claridad:

qué features se están generando
por qué se utilizan
cómo complementan los embeddings

Esto ayuda a conectar el procesamiento de datos con el comportamiento del modelo.

3. Consistencia del notebook

Se observan algunos detalles menores heredados de plantillas anteriores que deberían ajustarse al problema actual para mantener coherencia. (quedaron algunos prints que hacen referencia al titanic)

En general, el notebook tiene buena calidad, está correctamente estructurado y permite avanzar sin problemas a la fase de modelado.

Nota: 19 / 20

Atlls and others added 17 commits February 14, 2026 23:38

[ADD]: eda - Some begining

f9d2fe9

[FEAT]: eda - some columns study

a938679

[ADD]: requirement.txt

ddb299a

[add]: eda - some study x2

9394fca

chore: rename requirement.txt to requirements.txt

eb44234

[add]: some coment_text analytics

1bf554d

feat: add data/bad-words.txt, eda notebooks

4cd3d4c

add used bad words per total words ratio section

11b11fa

preserve eda v2 only

d855f63

add another section about bad words per total words

d8af437

[add]: Conclutions parts

7f71ff9

[add]: eda v2

dc1c2e7

wip - data-processing docs

8843e4b

wip add some registers observations

52a6fcb

data-processing: complete the whole documentation in the notebook

75de834

Signed-off-by: A.L.I.C.E <a@alice0.com>

alice39 requested a review from errodd March 19, 2026 02:04

alice39 mentioned this pull request Apr 17, 2026

Modeling Notebook #3

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Data Processing Notebook#2

Data Processing Notebook#2
alice39 wants to merge 17 commits into
errodd:mainfrom
Atlls:data-processing

alice39 commented Mar 19, 2026

Uh oh!

errodd commented Apr 2, 2026

Uh oh!

errodd commented Apr 2, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

alice39 commented Mar 19, 2026

Uh oh!

errodd commented Apr 2, 2026

Uh oh!

errodd commented Apr 2, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants