当操作种类为K时, 贪心选择最佳动作的概率:1-e 随机有机会选择最佳动作,概率为:e/K 总的概率应该是:1-e+e/K 对题主给的答案有疑问
当操作种类为K时,
贪心选择最佳动作的概率:1-e
随机有机会选择最佳动作,概率为:e/K
总的概率应该是:1-e+e/K
对题主给的答案有疑问