【直播预告】SFFAI 109 人物交互专题
人物交互(HOI)是关系理解和动作识别两个任务中的重要挑战。人物交互可以看成是动作和物体的结合,HOI不仅要检测图像中的人和物体,还需要判断每个(人,物体)对之间的交互类型。本期论坛我们邀请到来自华南理工大学的钟旭彬同学,分享他在一阶段人物交互检测模型上的研究工作,用扫视与凝视网络推断动作感知点。

讲者介绍
钟旭彬,华南理工大学直博生二年级,主要研究方向是场景理解和关系检测, 目前已在IJCV,CVPR,ECCV等国际顶级期刊和会议上发表一作论文3篇。
会议题目
扫视与凝视:一阶段人物交互检测中动作感知点的推断
会议摘要
现有的人物交互检测方法可分为一阶段和两阶段两种。一阶段模型由于其直接的体系结构更高效,但两阶段模型在准确性上仍然有优势。现有一阶段模型通常首先检测预定义交互区域或点,然后只关注这些领域来预测交互类型;因此,他们缺乏动态搜索辨别线索的推理步骤。本文提出了一种新的一阶段方法,即扫视与凝视网络,它通过扫视与凝视步骤自适应地建模一组动作感知点。扫视步骤快速确定图片中的每个像素是否一个交互点;凝视步骤利用由扫视步骤生成的特征图,以渐进的方式自适应地推断每个像素周围的动作感知点。将细化后的动作感知点特征进行聚合,用于交互预测。此外,我们设计了一种动作感知的匹配方法,可以有效地将每个检测到的交互与其关联的人-物对进行匹配,以及一种改进优化的困难样本注意损失算法。上述所有操作都是同时有效地针对特征图中的所有像素进行的。

会议亮点
1、从“如何定义交互区域”的角度分析了现有一阶段检测网络的缺陷;
2、第一次在人物体交互检测方向提出“扫视与凝视“步骤来推理动作感知点;
3、在实验中充分验证了扫视与凝视步骤的有效性, 并且在V-COCO和HICO-DET两个数据集上大幅领先目前最好的方法。
直播时间
2021年6月6日(周日)20:00—21:00 线上直播
关注本公众号,对话框回复“SFFAI109”,获取入群二维码
注:直播地址会分享在交流群内

现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。SFFAI还在构建人工智能领域的知识森林—AI Knowledge Forest,通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献,欢迎大家关注SFFAI论坛:https://bbs.sffai.com。
