贪心学院强化学习第六期

2023-08-08 20:36 作者:bili_34189062872 0人读过 | 我要投稿

ε-贪心

ε-贪心法基于一个概率来对探索和利用进行折中，具体而言：在每一次尝试时，以 ε 的概率进行探索，即

ε-贪心法基于一个概率来对探索和利用进行折中，具体而言：在每一次尝试时，以 ε 的概率进行探索，即以均匀概率随机选择一个动作；以 1-ε 来进行利用，即选择当前最优的动作。
直观来理解，就是说用 ε 来代替探索的概率，1-ε 来代替利用的概率，用这个概率对二者进行了折中。

Softmax 算法是基于当前每个动作的平均奖赏值来对探索和利用进行折中，Softmax 函数把一组值转化为一组概率，值越大对应的概率也越高，因此当前平均奖赏越高的动作被选中的几率也越大。

以均匀概率随机选择一个动作；以 1-ε 来进行利用，即选择当前最优的动作。
直观来理解，就是说用 ε 来代替探索的概率，1-ε 来代替利用的概率，用这个概率对二者进行了折中。

标签：