求助！如何使用Lora实现RFT

非常感谢作者开源代码，本小卡拉米有个问题在这，受限于我这边的硬件条件（4*48G），对于7B的模型只能采用Lora+RFT进行微调，在尝试过程中会遇到vllm和lora冲突的情况，以下是我的脚本，想请问作者有试过lora微调吗？是否也存在该问题？或者能不能基于现有的硬件条件给点如何微调7B模型意见，非常感谢！


    torchrun --nproc_per_node=4 --master_port=29514 \
      train/stage_rl/grpo.py \
      --deepspeed scripts/train/zero3.json \
      --output_dir ${OUTPUT_DIR} \
      --model_name_or_path ${MODEL_NAME_OR_PATH} \
      --dataset_name ${DATASET_NAME} \
      --image_path ${IMAGE_PATH} \
      --task_name ${TASK_NAME} \
      --use_vllm_for_gen false \
      --use_system_prompt false \
      --max_prompt_length 4096 \
      --max_completion_length 512 \
      --num_generations 8 \
      --per_device_train_batch_size 1 \
      --gradient_accumulation_steps 2 \
      --logging_steps 1 \
      --bf16 true \
      --report_to wandb \
      --attn_implementation flash_attention_2 \
      --max_pixels 65536 \
      --save_steps 100 \
      --num_train_epochs 1 \
      --gradient_checkpointing true \
      --run_name ${WANDB_RUN_NAME} \
      \
      --use_peft true \
      --lora_rank 16 \
      --lora_alpha 32 \
      --lora_dropout 0.05 \
      --lora_target_modules "q_proj" "k_proj" "v_proj" "o_proj" "gate_proj" "up_proj" "down_proj" \
      \
      2>&1 | tee ${OUTPUT_DIR}/train.log 

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

求助！如何使用Lora实现RFT #46

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

求助！如何使用Lora实现RFT #46

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions