贪心学院强化学习第六期
2023-08-08 20:36 作者:bili_34189062872 | 我要投稿
ε-贪心
ε-贪心法基于一个概率来对探索和利用进行折中,具体而言:在每一次尝试时,以 ε 的概率进行探索,即
ε-贪心
ε-贪心法基于一个概率来对探索和利用进行折中,具体而言:在每一次尝试时,以 ε 的概率进行探索,即以均匀概率随机选择一个动作;以 1-ε 来进行利用,即选择当前最优的动作。
直观来理解,就是说用 ε 来代替探索的概率,1-ε 来代替利用的概率,用这个概率对二者进行了折中。
16.2.2 softmax
Softmax 算法是基于当前每个动作的平均奖赏值来对探索和利用进行折中,Softmax 函数把一组值转化为一组概率,值越大对应的概率也越高,因此当前平均奖赏越高的动作被选中的几率也越大。
以均匀概率随机选择一个动作;以 1-ε 来进行利用,即选择当前最优的动作。
直观来理解,就是说用 ε 来代替探索的概率,1-ε 来代替利用的概率,用这个概率对二者进行了折中。
16.2.2 softmax
Softmax 算法是基于当前每个动作的平均奖赏值来对探索和利用进行折中,Softmax 函数把一组值转化为一组概率,值越大对应的概率也越高,因此当前平均奖赏越高的动作被选中的几率也越大。