我的环境是:
os:ubuntu20.04
cuda: 12.4
torch: 2.6.0 + cu124
python: 3.11
gpu:4090D
我安装了 flash_attn 版本如下

也成功编译了该项目
但是推理过程中遇到了以下问题,不知道是否是版本问题还是代码问题:
1.一个小问题 参数 README.md可以修改一下, --optimize_rule_path 修改成 --optimize_config_path
2.我成功安装了flash_attn 但是启动的时候日志显示没有找到 flashinfer。
3.推理途中报错如下,时不时会报错不知道为何,有的时候不报错。
相同的模型我在ktransformers原项目下是可以跑的没有遇到上面问题。
我的环境是:
os:ubuntu20.04
cuda: 12.4
torch: 2.6.0 + cu124
python: 3.11
gpu:4090D
我安装了 flash_attn 版本如下

也成功编译了该项目
但是推理过程中遇到了以下问题,不知道是否是版本问题还是代码问题:
1.一个小问题 参数 README.md可以修改一下, --optimize_rule_path 修改成 --optimize_config_path
2.我成功安装了flash_attn 但是启动的时候日志显示没有找到 flashinfer。
3.推理途中报错如下,时不时会报错不知道为何,有的时候不报错。
相同的模型我在ktransformers原项目下是可以跑的没有遇到上面问题。