ICPR2022MSR：基于crnn_ctc的视频字幕识别比赛baseline

2022-04-06 17:42 作者:深度之眼官方账号 0人读过 | 我要投稿

来源：投稿

作者：clark 编辑：学姐

作者：clark老师

研究方向包括：跨模态检索，图像检索，多模态预训练，语义分割，Image Captioning，在6国内外期刊发表多篇论文，有比较丰富的算法研发和竞赛指导经验。

比赛链接

https://icprmsr.github.io/challenge.html

赛题描述

视频通过视觉和音频等传递丰富的信息。视频理解一直是学术界和工业界的热门研究课题。

融合多模态信息也是一个具有挑战性和有意义的研究课题。字幕是文字来源于访谈节目或电视剧等类的视频。字幕是视频数据中最重要的文本信息之一，因为字幕包含人们交谈内容的信息。为了更好的促进字幕识别的发展，本赛题旨在从视频中提取字幕，进而将字幕识别广泛用于推荐、检索和视频理解系统。

本赛题分为三个赛道

赛道一为使用音频模态标注的字幕信息在视觉模态中提取字幕；

赛道二为使用视觉模态标注的字幕信息在音频模态中提取字幕；

赛道三为使用视觉模态和音频模态标注的字幕信息提取视频中的字幕。

数据描述

本次比赛数据集丰富，包含75个小时的有标注视频数据，其中按照50/5/20分为训练/验证/测试集；同时提高200h的无标注视频数据。

赛题亮点

1.学术workshop，方案能够转换为workshop论文

2.数据涉及到视觉，语音，结合了cv, nlp与语音等领域，同时由腾讯协办，认可度高

3.与hm相比技术栈更丰富，同时更贴近实际，可以解决痛点问题

Baseline流程

GitHub - bai-shang/crnn_seq2seq_ocr_pytorch: Extremely simple implement for Chinese OCR by PyTorch.

1、环境搭建

pip3 install -r requirements.txt

2、数据预处理

1) 提取视频帧

2) 转化为txt格式数据

Create train_list.txt and test_list.txt as follow format

python video_utils.py

3、训练模型

1）启动训练脚本

python train.py --train_list train_list.txt --eval_list test_list.txt --model ./model/crnn/

由于验证集和测试集还未开放，暂时就更新到这里啦，待开放后会更新更多。

领取baseline资料

关注公众号【学姐带你玩AI】后台回复“字幕”

添加小享领取