MTL_in_MAT

多任务情况

UHPC为核心数据集测试集划分有两种方式：

单任务测试集：针对每个任务，划分出该任务没有缺失标签的样本中的一部分作为测试集
- 训练阶段：分任务训练，与其他任务(标签)的样本进行合并，这样就得到了一个训练集，这个训练集中特征和标签还是有缺失的
- 训练出的模型：
  - 输入：特征 + 其他任务的标签
  - 输出：当前任务的标签
- 测试阶段：使用该任务的测试集进行评估
- 问题是：测试集中没有其他任务的标签，怎么办？(需要想办法解决)
多任务测试集：划分出所有任务都没有缺失标签的样本作为测试集
- 训练阶段：使用其他样本作为训练集，这些样本中有缺失标签和缺失特征
- 训练出的模型：
  - 输入：特征
  - 输出：所有任务的标签
- 测试阶段：使用多任务测试集进行评估
- 这样就能利用多个任务之间的关系进行预测
- 缺点是：测试集会比较小，并且只能评估那些没有缺失标签的样本
- 问题：取出测试集后，训练集不存在完整的数据，在一些不能直接处理缺失的模型上，无法提取到有效信息。

数据集做标准化。 stancard scaler

from sklearn.preprocessing import StandardScaler

def scale_data(X: pd.DataFrame) -> pd.DataFrame: preproc = StandardScaler() cols = X.columns return pd.DataFrame(preproc.fit_transform(X), columns=cols)

随机种子固定，做5-10个，先做一个，看看结果

都用XgBoost

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
.idea		.idea
analysis_plots		analysis_plots
data160126		data160126
data_set		data_set
results_multi_seed		results_multi_seed
uhpc		uhpc
.gitignore		.gitignore
README.md		README.md
README之重新起航.md		README之重新起航.md
analyze_results.py		analyze_results.py
requirements.txt		requirements.txt
run_all_experiments.py		run_all_experiments.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MTL_in_MAT

多任务情况

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

MTL_in_MAT

多任务情况

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages