Talk预告 | 清华大学陈晓宇&黎世理工黄嘉伟：基于实际应用的强化学习

2022-11-15 12:25 作者:TechBeat人工智能社区 0人读过 | 我要投稿

本期为TechBeat人工智能社区第455期线上Talk！

北京时间11月17日(周四)20:00，清华大学交叉信息研究院在读博士生——陈晓宇与苏黎世联邦理工大学计算机科学在读博士生——黄嘉伟的Talk将准时在TechBeat人工智能社区开播！

他们与大家分享的主题是: “基于实际应用的强化学习”，届时将分别讲解一种针对分段平稳环境的自适应深度强化学习方法，以及等级强化学习：悲观面对风险与常数regret。这两项工作成果均在微软亚洲研究院实习期间完成，并均已发表在NeurIPS 2022上。

Talk·信息

主题：基于实际应用的强化学习

嘉宾：清华大学交叉信息研究院在读博士生陈晓宇

苏黎世联邦理工大学计算机科学在读博士生黄嘉伟

时间：北京时间 11月17日 (周四) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

完整版怎么看

扫描下方二维码，或复制链接https://datayi.cn/w/a9B32dNR浏览器，一键完成预约！上线后会在第一时间收到通知哦

Talk·介绍

实际应用给强化学习带来了新的挑战。一方面，我们发现智能体所处的环境总是在变化；另一方面，我们发现不同用户群体对风险的承受能力是不同的。对于前者，我们观察到，在很多现实问题中，环境（例如网络可用带宽，机器人所处地形等）在一段随机的时间内保持不变，然后以不可预测的方式发生突然的跳变，而且这些环境变量往往是不可观测的。为此，我们设计了一种针对分段平稳环境的自适应深度强化学习方法来及时检测这种变化并且快速调整自身策略以适应这样的环境变化。针对后者，我们提出了一个新的Tiered RL 框架来应对这种用户群体有层级结构（Tiered Structure）的情况。

一种针对分段平稳环境的自适应深度强化学习方法

在现实生活中，智能体所处的环境总在变化，这也是阻碍强化学习算法成功应用的原因之一。我们观察到，在很多现实问题中，环境（例如网络可用带宽、机器人所处地形等）在一段随机的时间内保持不变，然后以不可预测的方式发生突然的跳变，而且这些环境变量往往是不可观测的。因此，智能体需要及时检测到这种变化并快速调整自身策略以适应这种变化。

Talk提纲如下：

背景介绍
问题建模
方法
实验

等级强化学习：悲观面对风险与常数regret

强化学习在很多用户交互的产品中有很多成功的应用，比如医疗领域、推荐系统等等。但是当前的RL框架忽略了不同用户群体对于风险的承受能力是不同的，因此我们提出了一个新的Tiered RL框架来应对这种用户群体有层级结构（Tiered Structure）的情况。

Talk提纲如下：

Tiered RL框架的定义与动机
Tiered RL框架下取得的理论结果 - 方法和背后的原理

Talk·预习资料

https://arxiv.org/abs/2205.12418

Talk·提问交流

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

清华大学交叉信息研究院陈建宇老师组博士生，主要研究方向为强化学习，曾在ICML、NeurIPS、AIJ等会议期刊上发表多篇论文。

主要从事强化学习（理论）的研究，之前的工作主要与离线强化学习相关（Offline RL），在ICML，NeurIPS，ICLR等会议上发表过一些文章。

-The End-

关于TechBeat人工智能社区

TechBeat (www.techbeat.net) 是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ

标签：