[AMD][ROCm] Enable BF16 and fixes review's comment

k-artem · k-artem · commit 45a01dfeac90 · 2025-08-18T13:21:34.000-04:00
diff --git a/csrc/fp_quantizer/fp_quantize_api.cu b/csrc/fp_quantizer/fp_quantize_api.cu
@@ -11,6 +11,9 @@
 
 #if defined(__HIP_PLATFORM_AMD__)
 #include <hip/hip_fp16.h>
+#if BF16_AVAILABLE
+#include <hip/hip_bf16.h>
+#endif
 #endif
 
 #define DISPATCH_QUANTIZE(T_TYPE, C_TYPE, mantisa, exponent)                             \
diff --git a/csrc/includes/conversion_utils.h b/csrc/includes/conversion_utils.h
@@ -59,6 +59,7 @@ DS_D_INLINE __half to(__half val)
 {
     return val;
 }
+
 #ifdef BF16_AVAILABLE
 template <>
 DS_D_INLINE __nv_bfloat16 to(__nv_bfloat16 val)
@@ -363,42 +364,74 @@ DS_D_INLINE __nv_bfloat16 to(float val)
 template <>
 DS_D_INLINE __nv_bfloat16 to(int64_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __double2bfloat16(__ll2double_rn(val));
+#else
     return __ll2bfloat16_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat16 to(int32_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2bfloat16(__int2float_rn(val));
+#else
     return __int2bfloat16_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat16 to(int16_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2bfloat16(__int2float_rn(val));
+#else
     return __short2bfloat16_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat16 to(int8_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2bfloat16(__int2float_rn(val));
+#else
     return __int2bfloat16_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat16 to(uint64_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __double2bfloat16(__ull2double_rn(val));
+#else
     return __ull2bfloat16_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat16 to(uint32_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2bfloat16(__uint2float_rn(val));
+#else
     return __uint2bfloat16_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat16 to(uint16_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2bfloat16(__uint2float_rn(val));
+#else
     return __ushort2bfloat16_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat16 to(uint8_t val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2bfloat16(__uint2float_rn(val));
+#else
     return __uint2bfloat16_rn(val);
+#endif
 }
 #endif
 
@@ -412,7 +445,11 @@ DS_D_INLINE __nv_bfloat162 to(float2 val)
 template <>
 DS_D_INLINE __nv_bfloat162 to(float val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __bfloat162bfloat162(__float2bfloat16(val));
+#else
     return __float2bfloat162_rn(val);
+#endif
 }
 template <>
 DS_D_INLINE __nv_bfloat162 to(__half2 val)
@@ -444,7 +481,11 @@ DS_D_INLINE int64_t to(__half val)
 template <>
 DS_D_INLINE int64_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2ll_rn(__bfloat162float(val));
+#else
     return __bfloat162ll_rn(val);
+#endif
 }
 #endif
 
@@ -471,7 +512,11 @@ DS_D_INLINE int32_t to(__half val)
 template <>
 DS_D_INLINE int32_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2int_rn(__bfloat162float(val));
+#else
     return __bfloat162int_rn(val);
+#endif
 }
 #endif
 
@@ -498,7 +543,11 @@ DS_D_INLINE int16_t to(__half val)
 template <>
 DS_D_INLINE int16_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2int_rn(__bfloat162float(val));
+#else
     return __bfloat162int_rn(val);
+#endif
 }
 #endif
 
@@ -525,7 +574,11 @@ DS_D_INLINE int8_t to(__half val)
 template <>
 DS_D_INLINE int8_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2int_rn(__bfloat162float(val));
+#else
     return __bfloat162int_rn(val);
+#endif
 }
 #endif
 
@@ -552,7 +605,11 @@ DS_D_INLINE uint64_t to(__half val)
 template <>
 DS_D_INLINE uint64_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2ull_rn(__bfloat162float(val));
+#else
     return __bfloat162ull_rn(val);
+#endif
 }
 #endif
 
@@ -579,7 +636,11 @@ DS_D_INLINE uint32_t to(__half val)
 template <>
 DS_D_INLINE uint32_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2uint_rn(__bfloat162float(val));
+#else
     return __bfloat162uint_rn(val);
+#endif
 }
 #endif
 
@@ -606,7 +667,11 @@ DS_D_INLINE uint16_t to(__half val)
 template <>
 DS_D_INLINE uint16_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2uint_rn(__bfloat162float(val));
+#else
     return __bfloat162uint_rn(val);
+#endif
 }
 #endif
 
@@ -633,7 +698,11 @@ DS_D_INLINE uint8_t to(__half val)
 template <>
 DS_D_INLINE uint8_t to(__nv_bfloat16 val)
 {
+#ifdef __HIP_PLATFORM_AMD__
+    return __float2uint_rn(__bfloat162float(val));
+#else
     return __bfloat162uint_rn(val);
+#endif
 }
 #endif
 
diff --git a/csrc/includes/reduction_utils.h b/csrc/includes/reduction_utils.h
@@ -9,6 +9,10 @@
 #include "ds_kernel_utils.h"
 #include "memory_access_utils.h"
 
+#if defined(BF16_AVAILABLE) && defined(__HIP_PLATFORM_AMD__)
+#include <hip/hip_bfloat16.h>
+#endif
+
 namespace cg = cooperative_groups;
 
 namespace reduce {
@@ -374,7 +378,11 @@ DS_D_INLINE __half init<ROpType::Max>()
 template <>
 DS_D_INLINE __nv_bfloat16 init<ROpType::Max>()
 {
+#ifdef __HIP_PLATFORM_AMD__
+    constexpr __hip_bfloat16_raw neg_inf = {0xFF80};
+#else
     constexpr __nv_bfloat16_raw neg_inf = {0xFF80};
+#endif
     return __nv_bfloat16(neg_inf);
 }
 #endif
@@ -526,29 +534,12 @@ here (fold is C++17 only and I don't think helps and recursion feels like
 huge overkill that harms readability) that would be wonderful.
 */
 
-template <typename T>
-DS_D_INLINE T shfl_xor_helper(cg::thread_block_tile<hw_warp_size>& warp, const T& value, int i)
-{
-    return warp.shfl_xor(value, i);
-}
-
-#if defined(__HIP_PLATFORM_AMD__)
-template <>
-DS_D_INLINE __half shfl_xor_helper<__half>(cg::thread_block_tile<hw_warp_size>& warp,
-                                           const __half& value,
-                                           int i)
-{
-    float fvalue = __half2float(value);
-    return __half(warp.shfl_xor(fvalue, i));
-}
-#endif
-
 template <typename T, ROpType Op, int reduce_width = hw_warp_size>
 DS_D_INLINE void _warp(cg::thread_block_tile<hw_warp_size>& warp, T* data)
 {
 #pragma unroll
     for (int i = 1; i < reduce_width; i *= 2) {
-        data[0] = element<Op>(data[0], shfl_xor_helper(warp, data[0], i));
+        data[0] = element<Op>(data[0], warp.shfl_xor(data[0], i));
     }
 }
 
@@ -557,8 +548,8 @@ DS_D_INLINE void _warp(cg::thread_block_tile<hw_warp_size>& warp, T* data)
 {
 #pragma unroll
     for (int i = 1; i < reduce_width; i *= 2) {
-        data[0] = element<Op1>(data[0], shfl_xor_helper(warp, data[0], i));
-        data[1] = element<Op2>(data[1], shfl_xor_helper(warp, data[1], i));
+        data[0] = element<Op1>(data[0], warp.shfl_xor(data[0], i));
+        data[1] = element<Op2>(data[1], warp.shfl_xor(data[1], i));
     }
 }
 
@@ -567,9 +558,9 @@ DS_D_INLINE void _warp(cg::thread_block_tile<hw_warp_size>& warp, T* data)
 {
 #pragma unroll
     for (int i = 1; i < reduce_width; i *= 2) {
-        data[0] = element<Op1>(data[0], shfl_xor_helper(warp, data[0], i));
-        data[1] = element<Op2>(data[1], shfl_xor_helper(warp, data[1], i));
-        data[2] = element<Op3>(data[2], shfl_xor_helper(warp, data[2], i));
+        data[0] = element<Op1>(data[0], warp.shfl_xor(data[0], i));
+        data[1] = element<Op2>(data[1], warp.shfl_xor(data[1], i));
+        data[2] = element<Op3>(data[2], warp.shfl_xor(data[2], i));
     }
 }
 
@@ -583,13 +574,39 @@ DS_D_INLINE void _warp(cg::thread_block_tile<hw_warp_size>& warp, T* data)
 {
 #pragma unroll
     for (int i = 1; i < reduce_width; i *= 2) {
-        data[0] = element<Op1>(data[0], shfl_xor_helper(warp, data[0], i));
-        data[1] = element<Op2>(data[1], shfl_xor_helper(warp, data[1], i));
-        data[2] = element<Op3>(data[2], shfl_xor_helper(warp, data[2], i));
-        data[3] = element<Op4>(data[3], shfl_xor_helper(warp, data[3], i));
+        data[0] = element<Op1>(data[0], warp.shfl_xor(data[0], i));
+        data[1] = element<Op2>(data[1], warp.shfl_xor(data[1], i));
+        data[2] = element<Op3>(data[2], warp.shfl_xor(data[2], i));
+        data[3] = element<Op4>(data[3], warp.shfl_xor(data[3], i));
     }
 }
 
+#if defined(__HIP_PLATFORM_AMD__)
+template <int reduce_width, typename T, ROpType... Ops>
+DS_D_INLINE void _warp_with_type_conversion(
+    cg::thread_block_tile<hw_warp_size>& warp_arg,
+    T* data)
+{
+    constexpr int elems = sizeof...(Ops);
+    if constexpr (
+        !(std::is_integral<T>::value || std::is_floating_point<T>::value)
+    ) {
+        float temp_data[elems];
+#pragma unroll
+        for (int i = 0; i < elems; i++) {
+            temp_data[i] = conversion::to<float>(data[i]);
+        }
+        _warp<float, Ops...>(warp_arg, temp_data);
+#pragma unroll
+        for (int i = 0; i < elems; i++) {
+            data[i] = conversion::to<T>(temp_data[i]);
+        }
+    } else {
+        _warp<T, Ops...>(warp_arg, data);
+    }
+}
+#endif // defined(__HIP_PLATFORM_AMD__)
+
 /*
 Implementation for primary block reduction that serves both `block` and
 `partitioned_block`.
@@ -617,7 +634,11 @@ DS_D_INLINE void _block(cg::thread_block& tb,
 #endif
 
     // Always perform warp-scope reduction
+#ifdef __HIP_PLATFORM_AMD__
+    _warp_with_type_conversion<hw_warp_size, T, Ops...>(warp_arg, data);
+#else
     _warp<T, Ops...>(warp_arg, data);
+#endif
 
     // If max_warps == 1 let's skip the runtime check
     if (total_warps != 1) {
@@ -641,8 +662,12 @@ DS_D_INLINE void _block(cg::thread_block& tb,
             } else {
                 init<Ops...>(data);
             }
-
+#ifdef __HIP_PLATFORM_AMD__
+            _warp_with_type_conversion<total_warps, T, Ops...>(warp_arg, data);
+#else
             _warp<T, Ops..., total_warps>(warp_arg, data);
+#endif
+
 
 #pragma unroll
             for (int i = 0; i < elems; i++) {
diff --git a/csrc/transformer/inference/csrc/pt_binding.cu b/csrc/transformer/inference/csrc/pt_binding.cu
diff --git a/op_builder/fp_quantizer.py b/op_builder/fp_quantizer.py
@@ -18,6 +18,8 @@ class FPQuantizerBuilder(CUDAOpBuilder):
     def __init__(self, name=None):
         name = self.NAME if name is None else name
         super().__init__(name=name)
+        if self.is_rocm_pytorch():
+            self.enable_bf16 = True
 
     def absolute_name(self):
         return f'deepspeed.ops.fp_quantizer.{self.NAME}_op'
@@ -90,7 +92,7 @@ def filter_ccs(self, ccs):
     def sources(self):
         return [
             "csrc/fp_quantizer/fp_quantize.cu",
-            "csrc/fp_quantizer/fp_quantize.cpp",
+            "csrc/fp_quantizer/fp_quantize_api.cu",
         ]
 
     def extra_ldflags(self):
diff --git a/op_builder/transformer_inference.py b/op_builder/transformer_inference.py
@@ -13,6 +13,8 @@ class InferenceBuilder(CUDAOpBuilder):
     def __init__(self, name=None):
         name = self.NAME if name is None else name
         super().__init__(name=name)
+        if self.is_rocm_pytorch():
+            self.enable_bf16 = True
 
     def absolute_name(self):
         return f'deepspeed.ops.transformer.inference.{self.NAME}_op'
@@ -55,7 +57,7 @@ def filter_ccs(self, ccs):
 
     def sources(self):
         return [
-            'csrc/transformer/inference/csrc/pt_binding.cpp',
+            'csrc/transformer/inference/csrc/pt_binding.cu',
             'csrc/transformer/inference/csrc/gelu.cu',
             'csrc/transformer/inference/csrc/relu.cu',
             'csrc/transformer/inference/csrc/layer_norm.cu',

Original file line number	Diff line number	Diff line change
`@@ -59,6 +59,7 @@ DS_D_INLINE __half to(__half val)`
`59`	`59`	`{`
`60`	`60`	`return val;`
`61`	`61`	`}`
	`62`	`+`
`62`	`63`	`#ifdef BF16_AVAILABLE`
`63`	`64`	`template <>`
`64`	`65`	`DS_D_INLINE __nv_bfloat16 to(__nv_bfloat16 val)`
`@@ -363,42 +364,74 @@ DS_D_INLINE __nv_bfloat16 to(float val)`
`363`	`364`	`template <>`
`364`	`365`	`DS_D_INLINE __nv_bfloat16 to(int64_t val)`
`365`	`366`	`{`
	`367`	`+#ifdef __HIP_PLATFORM_AMD__`
	`368`	`+ return __double2bfloat16(__ll2double_rn(val));`
	`369`	`+#else`
`366`	`370`	`return __ll2bfloat16_rn(val);`
	`371`	`+#endif`
`367`	`372`	`}`
`368`	`373`	`template <>`
`369`	`374`	`DS_D_INLINE __nv_bfloat16 to(int32_t val)`
`370`	`375`	`{`
	`376`	`+#ifdef __HIP_PLATFORM_AMD__`
	`377`	`+ return __float2bfloat16(__int2float_rn(val));`
	`378`	`+#else`
`371`	`379`	`return __int2bfloat16_rn(val);`
	`380`	`+#endif`
`372`	`381`	`}`
`373`	`382`	`template <>`
`374`	`383`	`DS_D_INLINE __nv_bfloat16 to(int16_t val)`
`375`	`384`	`{`
	`385`	`+#ifdef __HIP_PLATFORM_AMD__`
	`386`	`+ return __float2bfloat16(__int2float_rn(val));`
	`387`	`+#else`
`376`	`388`	`return __short2bfloat16_rn(val);`
	`389`	`+#endif`
`377`	`390`	`}`
`378`	`391`	`template <>`
`379`	`392`	`DS_D_INLINE __nv_bfloat16 to(int8_t val)`
`380`	`393`	`{`
	`394`	`+#ifdef __HIP_PLATFORM_AMD__`
	`395`	`+ return __float2bfloat16(__int2float_rn(val));`
	`396`	`+#else`
`381`	`397`	`return __int2bfloat16_rn(val);`
	`398`	`+#endif`
`382`	`399`	`}`
`383`	`400`	`template <>`
`384`	`401`	`DS_D_INLINE __nv_bfloat16 to(uint64_t val)`
`385`	`402`	`{`
	`403`	`+#ifdef __HIP_PLATFORM_AMD__`
	`404`	`+ return __double2bfloat16(__ull2double_rn(val));`
	`405`	`+#else`
`386`	`406`	`return __ull2bfloat16_rn(val);`
	`407`	`+#endif`
`387`	`408`	`}`
`388`	`409`	`template <>`
`389`	`410`	`DS_D_INLINE __nv_bfloat16 to(uint32_t val)`
`390`	`411`	`{`
	`412`	`+#ifdef __HIP_PLATFORM_AMD__`
	`413`	`+ return __float2bfloat16(__uint2float_rn(val));`
	`414`	`+#else`
`391`	`415`	`return __uint2bfloat16_rn(val);`
	`416`	`+#endif`
`392`	`417`	`}`
`393`	`418`	`template <>`
`394`	`419`	`DS_D_INLINE __nv_bfloat16 to(uint16_t val)`
`395`	`420`	`{`
	`421`	`+#ifdef __HIP_PLATFORM_AMD__`
	`422`	`+ return __float2bfloat16(__uint2float_rn(val));`
	`423`	`+#else`
`396`	`424`	`return __ushort2bfloat16_rn(val);`
	`425`	`+#endif`
`397`	`426`	`}`
`398`	`427`	`template <>`
`399`	`428`	`DS_D_INLINE __nv_bfloat16 to(uint8_t val)`
`400`	`429`	`{`
	`430`	`+#ifdef __HIP_PLATFORM_AMD__`
	`431`	`+ return __float2bfloat16(__uint2float_rn(val));`
	`432`	`+#else`
`401`	`433`	`return __uint2bfloat16_rn(val);`
	`434`	`+#endif`
`402`	`435`	`}`
`403`	`436`	`#endif`
`404`	`437`
`@@ -412,7 +445,11 @@ DS_D_INLINE __nv_bfloat162 to(float2 val)`
`412`	`445`	`template <>`
`413`	`446`	`DS_D_INLINE __nv_bfloat162 to(float val)`
`414`	`447`	`{`
	`448`	`+#ifdef __HIP_PLATFORM_AMD__`
	`449`	`+ return __bfloat162bfloat162(__float2bfloat16(val));`
	`450`	`+#else`
`415`	`451`	`return __float2bfloat162_rn(val);`
	`452`	`+#endif`
`416`	`453`	`}`
`417`	`454`	`template <>`
`418`	`455`	`DS_D_INLINE __nv_bfloat162 to(__half2 val)`
`@@ -444,7 +481,11 @@ DS_D_INLINE int64_t to(__half val)`
`444`	`481`	`template <>`
`445`	`482`	`DS_D_INLINE int64_t to(__nv_bfloat16 val)`
`446`	`483`	`{`
	`484`	`+#ifdef __HIP_PLATFORM_AMD__`
	`485`	`+ return __float2ll_rn(__bfloat162float(val));`
	`486`	`+#else`
`447`	`487`	`return __bfloat162ll_rn(val);`
	`488`	`+#endif`
`448`	`489`	`}`
`449`	`490`	`#endif`
`450`	`491`
`@@ -471,7 +512,11 @@ DS_D_INLINE int32_t to(__half val)`
`471`	`512`	`template <>`
`472`	`513`	`DS_D_INLINE int32_t to(__nv_bfloat16 val)`
`473`	`514`	`{`
	`515`	`+#ifdef __HIP_PLATFORM_AMD__`
	`516`	`+ return __float2int_rn(__bfloat162float(val));`
	`517`	`+#else`
`474`	`518`	`return __bfloat162int_rn(val);`
	`519`	`+#endif`
`475`	`520`	`}`
`476`	`521`	`#endif`
`477`	`522`
`@@ -498,7 +543,11 @@ DS_D_INLINE int16_t to(__half val)`
`498`	`543`	`template <>`
`499`	`544`	`DS_D_INLINE int16_t to(__nv_bfloat16 val)`
`500`	`545`	`{`
	`546`	`+#ifdef __HIP_PLATFORM_AMD__`
	`547`	`+ return __float2int_rn(__bfloat162float(val));`
	`548`	`+#else`
`501`	`549`	`return __bfloat162int_rn(val);`
	`550`	`+#endif`
`502`	`551`	`}`
`503`	`552`	`#endif`
`504`	`553`
`@@ -525,7 +574,11 @@ DS_D_INLINE int8_t to(__half val)`
`525`	`574`	`template <>`
`526`	`575`	`DS_D_INLINE int8_t to(__nv_bfloat16 val)`
`527`	`576`	`{`
	`577`	`+#ifdef __HIP_PLATFORM_AMD__`
	`578`	`+ return __float2int_rn(__bfloat162float(val));`
	`579`	`+#else`
`528`	`580`	`return __bfloat162int_rn(val);`
	`581`	`+#endif`
`529`	`582`	`}`
`530`	`583`	`#endif`
`531`	`584`
`@@ -552,7 +605,11 @@ DS_D_INLINE uint64_t to(__half val)`
`552`	`605`	`template <>`
`553`	`606`	`DS_D_INLINE uint64_t to(__nv_bfloat16 val)`
`554`	`607`	`{`
	`608`	`+#ifdef __HIP_PLATFORM_AMD__`
	`609`	`+ return __float2ull_rn(__bfloat162float(val));`
	`610`	`+#else`
`555`	`611`	`return __bfloat162ull_rn(val);`
	`612`	`+#endif`
`556`	`613`	`}`
`557`	`614`	`#endif`
`558`	`615`
`@@ -579,7 +636,11 @@ DS_D_INLINE uint32_t to(__half val)`
`579`	`636`	`template <>`
`580`	`637`	`DS_D_INLINE uint32_t to(__nv_bfloat16 val)`
`581`	`638`	`{`
	`639`	`+#ifdef __HIP_PLATFORM_AMD__`
	`640`	`+ return __float2uint_rn(__bfloat162float(val));`
	`641`	`+#else`
`582`	`642`	`return __bfloat162uint_rn(val);`
	`643`	`+#endif`
`583`	`644`	`}`
`584`	`645`	`#endif`
`585`	`646`
`@@ -606,7 +667,11 @@ DS_D_INLINE uint16_t to(__half val)`
`606`	`667`	`template <>`
`607`	`668`	`DS_D_INLINE uint16_t to(__nv_bfloat16 val)`
`608`	`669`	`{`
	`670`	`+#ifdef __HIP_PLATFORM_AMD__`
	`671`	`+ return __float2uint_rn(__bfloat162float(val));`
	`672`	`+#else`
`609`	`673`	`return __bfloat162uint_rn(val);`
	`674`	`+#endif`
`610`	`675`	`}`
`611`	`676`	`#endif`
`612`	`677`
`@@ -633,7 +698,11 @@ DS_D_INLINE uint8_t to(__half val)`
`633`	`698`	`template <>`
`634`	`699`	`DS_D_INLINE uint8_t to(__nv_bfloat16 val)`
`635`	`700`	`{`
	`701`	`+#ifdef __HIP_PLATFORM_AMD__`
	`702`	`+ return __float2uint_rn(__bfloat162float(val));`
	`703`	`+#else`
`636`	`704`	`return __bfloat162uint_rn(val);`
	`705`	`+#endif`
`637`	`706`	`}`
`638`	`707`	`#endif`
`639`	`708`