非常感谢作者开源代码,本小卡拉米有个问题在这,受限于我这边的硬件条件(4*48G),对于7B的模型只能采用Lora+RFT进行微调,在尝试过程中会遇到vllm和lora冲突的情况,以下是我的脚本,想请问作者有试过lora微调吗?是否也存在该问题?或者能不能基于现有的硬件条件给点如何微调7B模型意见,非常感谢!
torchrun --nproc_per_node=4 --master_port=29514 \
train/stage_rl/grpo.py \
--deepspeed scripts/train/zero3.json \
--output_dir ${OUTPUT_DIR} \
--model_name_or_path ${MODEL_NAME_OR_PATH} \
--dataset_name ${DATASET_NAME} \
--image_path ${IMAGE_PATH} \
--task_name ${TASK_NAME} \
--use_vllm_for_gen false \
--use_system_prompt false \
--max_prompt_length 4096 \
--max_completion_length 512 \
--num_generations 8 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 2 \
--logging_steps 1 \
--bf16 true \
--report_to wandb \
--attn_implementation flash_attention_2 \
--max_pixels 65536 \
--save_steps 100 \
--num_train_epochs 1 \
--gradient_checkpointing true \
--run_name ${WANDB_RUN_NAME} \
\
--use_peft true \
--lora_rank 16 \
--lora_alpha 32 \
--lora_dropout 0.05 \
--lora_target_modules "q_proj" "k_proj" "v_proj" "o_proj" "gate_proj" "up_proj" "down_proj" \
\
2>&1 | tee ${OUTPUT_DIR}/train.log
非常感谢作者开源代码,本小卡拉米有个问题在这,受限于我这边的硬件条件(4*48G),对于7B的模型只能采用Lora+RFT进行微调,在尝试过程中会遇到vllm和lora冲突的情况,以下是我的脚本,想请问作者有试过lora微调吗?是否也存在该问题?或者能不能基于现有的硬件条件给点如何微调7B模型意见,非常感谢!