【直播预告】SFFAI 105 强化学习专题
强化学习近年来在控制、机器人、自动驾驶、多智能体、在线决策等领域得到了广大的发展。但这些成功大多基于实验上的探索,缺乏数学上的性能保障。因此,从理论上理解强化学习算法的稳定性与收敛性显得尤为重要。双Q-学习就是这样一个例子。双Q-学习被提出以解决Q-学习的不稳定性问题,作为一个启发式算法在实践中得到有效的应用。但人们对其收敛性质与收敛速度的理解非常有限。理论地证明双Q-学习的有效性或找到双Q-学习存在的不足能帮助研究人员更好地了解并进而设计更有效的强化学习算法。

讲者介绍
翁文涛,清华大学姚班大四在读。主要研究兴趣为大规模随机系统中的算法与设计,研究问题包括云上的调度问题、按需服务平台、以及强化学习理论。
会议题目
双Q-学习的均方误差
会议摘要
本文在理论上严格比较了双Q-学习和Q-学习均方误差。基于最优策略的唯一性和算法的收敛性假设,本文基于线性随机近似理论对Q-学习和双Q-学习的Lyapunov方程进行了分析。该分析对表格型和带线性函数近似的情况均成立。我们证明了当双Q-学习的学习率为Q-学习的学习率的两倍,且输出其两个值函数估计的平均值时,渐近意义上双Q-学习的均方误差与Q-学习的均方误差是一致的。我们使用仿真实验进一步提供了该理论结果的实际意义。

会议亮点
1、本文首次严格给出双Q学习准确的渐进意义上的均方误差;
2、本文提供了以渐进均方误差为指标比较两种强化学习方法的理论框架;
3、本文根据文中的理论发现,提出了改进双Q学习均方误差的简单方法。
直播时间
2021年5月9日(周日)20:00—21:00 线上直播
关注微信公众号:人工智能前沿讲习,对话框回复“SFFAI104”,获取入群二维码
注:直播地址会分享在交流群内

现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。SFFAI还在构建人工智能领域的知识森林—AI Knowledge Forest,通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献,欢迎大家关注SFFAI论坛:https://bbs.sffai.com。
