欢迎光临散文网 会员登陆 & 注册

贪心学院强化学习第六期

2023-08-08 20:36 作者:bili_34189062872  | 我要投稿

ε-贪心

ε-贪心法基于一个概率来对探索和利用进行折中,具体而言:在每一次尝试时,以 ε 的概率进行探索,即

ε-贪心

ε-贪心法基于一个概率来对探索和利用进行折中,具体而言:在每一次尝试时,以 ε 的概率进行探索,即以均匀概率随机选择一个动作;以 1-ε 来进行利用,即选择当前最优的动作。
直观来理解,就是说用 ε 来代替探索的概率,1-ε 来代替利用的概率,用这个概率对二者进行了折中。

16.2.2 softmax

Softmax 算法是基于当前每个动作的平均奖赏值来对探索和利用进行折中,Softmax 函数把一组值转化为一组概率,值越大对应的概率也越高,因此当前平均奖赏越高的动作被选中的几率也越大。

以均匀概率随机选择一个动作;以 1-ε 来进行利用,即选择当前最优的动作。
直观来理解,就是说用 ε 来代替探索的概率,1-ε 来代替利用的概率,用这个概率对二者进行了折中。

16.2.2 softmax

Softmax 算法是基于当前每个动作的平均奖赏值来对探索和利用进行折中,Softmax 函数把一组值转化为一组概率,值越大对应的概率也越高,因此当前平均奖赏越高的动作被选中的几率也越大。


贪心学院强化学习第六期的评论 (共 条)

分享到微博请遵守国家法律