Skip to content

[Where2act] train_3d_critic.py 不收敛 #5

@Dpon-Sheep

Description

@Dpon-Sheep

学长好,我现在正在训练where2act的模型。我使用的是github文件中code/scripts/history的命令行文件。但是训练之后action scoring module 并没有收敛,下图为训练集的loss:
tensorboard_result

我使用的训练命令(run_train_3d_critic.sh)如下

python train_3d_critic.py \
    --exp_suffix drawer_35_critic_train-val=70000-21000_off-on=100-1-atest \
    --model_version model_3d_critic \
    --primact_type pushing \
    --category_types Drawer \
    --data_dir_prefix ../data/drawer_35 \
    --offline_data_dir ../data/drawer_35_pushing_train_70000 \
    --val_data_dir ../data/drawer_35_pushing_validation_21000 \
    --val_data_fn data_tuple_list.txt \
    --train_shape_fn ../stats/drawer_35.txt \
    --ins_cnt_fn ../stats/ins_cnt_drawer_35.txt \
    --buffer_max_num 10000 \
    --num_processes_for_datagen 10 \
    --num_interaction_data_offline 100 \
    --num_interaction_data 1 \
    --sample_succ \
    --epochs 100 \
    --overwrite \
    --no_visu \
    --num_point_per_shape 2000 \

因为服务器没有装blender,所以添加了no_visu。此外测试集我生成多了一点。

我使用的生成训练数据的命令如下:

python gen_offline_data.py \
  --data_dir ../data/drawer_35_pushing_train_70000 \
  --data_fn ../stats/drawer_35.txt \
  --category_types Drawer \
  --primact_types pushing \
  --num_processes 15 \
  --num_epochs 200 \
  --ins_cnt_fn ../stats/ins_cnt_drawer_35.txt \

此外为了缩短生成数据的时间,我将生成时间大于25s的数据强制中断了,因此最终数据量小于70k,大概60k多一点。

这是正常的现象吗?我接下来应该增大数据量还是检查我的操作?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions