Data Processing Notebook#2
Conversation
…tebook This should be as an initial base which we could iterate and improve the data preparation for the model. This notebook includes the following: - Split dataset into training and test datasets by sklearn library - Extracting features from columns such as embedding, word count, etc - Feature selection, which drops comment text, and unnecesary columns - Sklearn pipelines, column transformer Acked-by: Atlls <alejandroaigner1999@hotmail.com> Signed-off-by: A.L.I.C.E <a@alice0.com>
The phase 3 contains two elements which are:
- final feature matrices: this outputs the transformed dataset from
original data in `data/` directory, along the needed columns
to operate with.
- artifacts persistence: this dumps the column transformer into
preprocess_pipeline.joblib, and asso dumps a tuple stored as
(X_train_final, X_test_final, Y_train, Y_test) into
split_data.joblib.
- output summary: a summary about data processing notebook outputs,
and some design choices..
Signed-off-by: A.L.I.C.E <a@alice0.com>
Signed-off-by: A.L.I.C.E <a@alice0.com>
|
Para el EDA: Puntos positivos Se observa una mejora respecto a la entrega anterior.
En general, el trabajo muestra progreso y mayor comprensión del dataset. Aspectos a mejorar para siguientes entregas Aunque el análisis es sólido, aún hay oportunidades importantes de mejora. 1. Análisis multietiqueta más profundo El problema es multietiqueta, por lo que sería importante analizar:
Esto permite entender mejor la complejidad del problema antes de modelar. En general, el trabajo es sólido y muestra una mejora clara, pero aún puede fortalecerse en el análisis multietiqueta. Nota actualizada: 18 puntos |
|
Para el data preparation: Puntos positivos
En general, el trabajo está bien alineado con un flujo de Machine Learning más cercano a un entorno real. Aspectos a mejorar para siguientes entregas 1. Definición del problema Se trabaja correctamente con una única etiqueta ( 2. Documentación del feature engineering Sería recomendable explicar con mayor claridad:
Esto ayuda a conectar el procesamiento de datos con el comportamiento del modelo. 3. Consistencia del notebook Se observan algunos detalles menores heredados de plantillas anteriores que deberían ajustarse al problema actual para mantener coherencia. (quedaron algunos prints que hacen referencia al titanic) En general, el notebook tiene buena calidad, está correctamente estructurado y permite avanzar sin problemas a la fase de modelado. Nota: 19 / 20 |
No description provided.