欢迎光临散文网 会员登陆 & 注册

7.24 ICML直播 | 清华叉院智能系统与机器人课题组专场

2022-07-19 15:21 作者:TechBeat人工智能社区  | 我要投稿


正在如火如荼展开的ICML 2022即将进入尾声,但是摊儿还得续上!北京时间7月24日(本周日)上午10点,将门-TechBeat人工智能社区很开心邀请到清华叉院智能系统与机器人课题组助理教授陈建宇和3位在读博士生——陈晓宇、余冬杰、穆尧(港大),为大家讲解在本次ICML上的三篇工作,并进行实时Q&A,内容涵盖:

① 基于Flow的循环信念状态学习

② 可达性约束强化学习

③ CtrlFormer-通过Transformer学习视觉控制的可迁移状态表示

本次ICML云际会还邀请到

浙大数字媒体计算与设计实验室

感兴趣的朋友扫描下方二维码,一次预约

2!场!直!播!

以便及时收到开播提醒~

*直播回顾将在视频号、B站、TechBeat(www.techbeat.net)同步上架



活动议程 + 报名


活动福利

活动中将进行互动Q&A,我们将在视频号B站直播间中抽取3位提问最积极走心的同学送出“夏日运动礼包”(内含:运动头带、运动毛巾、超大容量不锈钢水杯、单肩包)!



团队介绍

团队名称

清华大学智能系统与机器人课题组(ISR Lab)


团队介绍

清华大学ISR Lab(智能系统与机器人实验室)由陈建宇助理教授组建,隶属于清华大学交叉信息研究院。团队从事机器人与人工智能交叉领域前沿研究,围绕强化学习中的安全性与表征学习问题、基于演示的强化学习、实时轨迹优化等方向开展研究,并应用于机械臂、无人车、腿足式机器人等多种实体机器人系统。团队在ICML/NeurIPS/CVPR/T-NNLS/ICRA/IROS/L4DC/CDC/ACC/T-ITS/T-IV/ITSC/IV等人工智能、机器人、控制、交通领域顶级会议和期刊发表论文30余篇。

团队老师

陈建宇

陈建宇,清华大学交叉信息研究院助理教授,博士生导师。他在清华大学取得学士学位,在加州大学伯克利分校取得博士学位,师从美国国家工程院院士、机电控制学科先驱Masayoshi Tomizuka教授。他近年来在机器人学、自动驾驶、强化学习、控制学的交叉领域从事前沿研究。他的研究目标是构建出具备高性能、高智能的高端机器人软硬件系统。他在机器人、人工智能、控制、交通等领域的国际顶级会议和期刊上发表了三十余篇论文,部分论文入围L4DC 2022、IEEE IV 2021、IFAC MECC 2021等国际会议优秀论文奖。他在2021年入选了“福布斯中国30under30”榜单。

工作及分享嘉宾

基于标准化流的部分可观测马尔科夫决策过程学习

(Flow-based Recurrent Belief State Learning for POMDPs)

陈晓宇

工作介绍

部分可观测的马尔科夫决策过程(POMDP)是解决很多序列决策问题的通用框架。POMDP的一种主流解法,是基于估计的belief state进行决策,而如何准确估计belief state仍然是一个棘手的难题。现有的研究方法在估计belief state方面展现出了很大的潜力,但是却只能对belief state做近似的估计。本文提出了FORBES算法,使用变分推断的方法可以估计任意连续的belief state,并通过实验展示出FORBES算法可以提供高质量多模态的重构图像,并且能在视觉输入的控制任务上取得超越此前算法的表现。

分享嘉宾

陈晓宇,清华大学交叉信息研究院 在读博士生

个人介绍

陈晓宇,清华大学交叉信息研究院陈建宇老师组博士生,主要研究方向为强化学习。


可达性约束强化学习

(Reachability Constrained Reinforcement Learning)

余冬杰

工作介绍

由于安全性对于现实世界问题的重要性,约束强化学习近来受到广泛关注。然而,现有的依托累计折扣代价的约束强化学习方法通常缺乏严格的定义和安全保证。相比之下,在安全控制研究中,安全定义为持续地满足某些状态约束。这种持续的安全性仅在状态空间的某些子集上存在,这些子集被称为可行集合。对于给定环境,存在最优的最大可行集。最近的研究将可行集与基于能量函数的方法(如控制障碍函数CBF、安全指数SI)结合到约束强化学习中,并利用可行集的先验保守估计,但这会损害策略的性能。针对这一问题,本文提出了可达性约束强化学习(RCRL)方法,利用可达性分析建立新的自洽条件并对可行集进行刻画。可行集由安全值函数表示,在约束强化学习中用作约束。我们使用多时间尺度随机近似理论来证明所提出的算法收敛到局部最优,并且可以保证可行集合的最大性质。不同任务上的实验结果表明,与约束强化学习或安全控制等基准方法相比,RCRL学习到的可行集的合理性、策略性能和约束满足的优势。

分享嘉宾

余冬杰,清华大学车辆与运载学院 在读硕士生

个人介绍

余冬杰,清华大学车辆与运载学院李升波老师组硕士生,主要研究方向为安全强化学习。个人主页:manutdmoon.github.io


③ 

CtrlFormer-通过Transformer学习视觉控制的可迁移状态表示

(Ctrlformer: learning transferable state representation for visual control via transformer)

穆尧

工作介绍

Transformer在学习视觉和语言表示方面取得了巨大的成功,这在各种下游任务中都是通用的。在视觉控制中,学习可在不同控制任务间迁移的可迁移状态表示对于减少训练样本的大小具有重要意义。然而,将Transformer移植到采样高效的视觉控制仍然是一个具有挑战性和未解决的问题。为此,我们提出了一种新颖的控制Transformer(CtrlFormer),它具有许多现有技术所没有的吸引人的优点。首先,CtrlFormer在不同控制任务之间联合学习视觉令牌和策略令牌之间的自注意力机制,可以在不发生灾难性遗忘的情况下学习和迁移多任务表示。其次,我们精心设计了一个对比强化学习范式来训练CtrlFormer,使其能够达到较高的样本效率,这在控制问题中是非常重要的。例如,在DMControl基准测试中,不像最近的先进方法在使用100k样本迁移学习后在“Cartpole”任务中产生零分而失败,CtrlFormer可以在仅使用100k样本的情况下获得769±34的最先进的分数,同时保持之前任务的性能。

分享嘉宾

穆尧,香港大学在读博士生

个人介绍

穆尧,香港大学在读博士生,师从罗平老师,现主要研究方向包括强化学习、机器人控制和表示学习, 在  NeurIPS, ICML, CVPR, IJCAI等顶级会议发表论文5篇, 曾获ICCAS2020最优学生论文奖,IV2021最优学生论文提名奖, 2021年在清华大学取得硕士学位,获清华大学优秀毕业生,清华大学优秀硕士论文奖。

个人主页:

yaomarkmu.github.io


报名+入群

扫码填写下方报名表,

工作人员将会把你拉入【CVPR2022活动交流群】


7月24日 周六上午10点,直播间见!


-The End-

关于TechBeat人工智能社区

TechBeat (www.techbeat.net) 是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ

7.24 ICML直播 | 清华叉院智能系统与机器人课题组专场的评论 (共 条)

分享到微博请遵守国家法律