DQN的compute_loss 函数中,计算目标函数时,为什么没有和书中所写一样,进行优化,将TD target 看成常数来计算导数 ?
DQN的compute_loss 函数中,计算目标函数时,为什么没有和书中所写一样,进行优化,将TD target 看成常数来计算导数 ?