您好,感谢您的工作,目前在进行int8量化时,发现了两个问题,想请教一下:
- 使用示例custom plugin中ptq量化时(onnx2trt_int8_qdp.sh),量化后的模型中两个关键cuda核仍使用的fp16的精度
Multi-scale Deformable Attention与Modulated Deformable Conv2d
- 使用示例custom plugin中int8量化时(onnx2trt_int8.sh),量化后的模型中两个cuda核同样也使用的fp16的精度
请问为什么会出现如上的现象呢?
您好,感谢您的工作,目前在进行int8量化时,发现了两个问题,想请教一下:
Multi-scale Deformable Attention与Modulated Deformable Conv2d
请问为什么会出现如上的现象呢?