采取何种评估方法最能评估一个模型的好坏？

关于multi-label text classification的问题，用何种方式来评估模型的好坏最好呢？我看你用的是precision_score, recall_score, f1_score, roc_auc_score, average_precision_score。那么其他的评估方法可以吗？比如说hamming_loss，zero_one_loss，jaccard_similarity_score还是accuracy_score