【课堂笔记】计算机视觉若干研究课题报告

1. 视觉:人类获取信息的主要方式
a. 朱松纯,计算机视觉国际权威
b. 计算机:最好的论文发到会议(以及期刊)上
i. CVPR
ii. ICCV
iii. ECCV
2. 计算机视觉简单介绍
a. 利用摄像机以及电脑替代人眼对目标进行识别、跟踪、测量和判断决策等,并进一步做图形处理,使电脑处理的信息称为更适合人眼观察或传送给仪器检测的图像。
b. 发展历史
i. Marr计算视觉
ii. 多视几何与分层三维重建
1) 精度很高,目前很多应用场景下有很重要的应用。摄影测量很多人都在做。
2) 成本较高,不够自动化,不够快(相较于深度学习)。
a) 例如:该方法重建A杯子过程中的“经验”,不能用于重建B杯子。(因为没有学习过程)
3) 渲染:能够把光纤的折射、散射等等都追踪出来;而三维重建重在几何的重建,难以像渲染一样,把颜色等等也恢复出来。
iii. 基于学习的视觉(深度学习)
c. 不一样的思路:“计算机式的处理方法”vs“类脑的处理方法”?(不同的研究人员会采用不一样的方式)
d. 一些Topics
i. 3D from a single image and shape-from-x
1) 让主播变成3D的
2) 医学上应用
ii. Detection and localization in 2D and 3D
iii. Image and video synthesis
1) 一些不靠谱的应用:可见光生成SAR?医学上的某个影像生成另一个影像?→可能没什么用,因为可能做出来的都是假的。
2) 比较踏实的应用:做娱乐
iv. Recognition and classification
v. Transfer/Low-shot/Semi/Unsupervised Learning
1) 机器学习依赖于样本和标注→医学+计算机视觉发论文,重要的是数据集大小。因此一些Nature/Science上的医学+计算机视觉的文章可能作者达到几十上百个
2) 此处的思路:模型的复用
a) Transfer:模型修改一下用到别的地方
b) Low-shot
c) Semi-Unsupervised:半监督/无监督
e. “数据标注公司”
f. 目前计算机的会议,都要求放代码,放数据。因此对什么方法感兴趣,去看论文,复现通常不是很难。
g. “人工智能”的三起三落:
i. …支持向量机的提出…
3. 一些Topics介绍
a. 目标检测:输入一张图像,输出图像中的物体位置和类别
i. 位置:用Bounding Box描述,也可以通过像素的集合描述
ii. 过程
1) Object Classification
2) Generic Object Detection(Bounding Box,Localization)
3) Sematic Segmentation
4) Object Instance Segmentation
iii. 问题:
1) 目标(前景)之外的“背景”的识别——还要区分“是背景”和“不是背景”的部分
2) 训练集中标注的“目标”太大→不适用于卫星遥感影像(目标太小)→主要应用与无人机遥感影像等等
3) 到21、22年:基本上提出的网络,都能考到“100分”→目前的发展方向:加噪声、限定训练集大小等等,期望网络在此条件下表现也能很好。
a) 加干扰(扰动)→神经网络攻击→对抗
b) 为什么要用“攻击”描述?
i) 此前的一些识别算法是“可解释”的,因此比如如果加扰动之后,发现不对了,能找出是哪个地方不对。而深度网络,过于复杂,加扰动识别出错之后不知道是哪里出错了。可以视为这个网络在扰动下整个就不行了。
ii) 应用前景:自动驾驶,如果通过一些扰动,使得其识别结果出现很大的错误,就会造成事故
iii) 神经网络的进攻与防御:自己的网络不要让别人知道
4) 在训练集上很好,在真实世界中表现差?Towards Open World Object Detection(github.com/JosephKJ/OWOD)
a) 解决问题:不要强行分类。还要分出“不认识”的类。(即:可以“拒绝”)
iv. 方法:
1) Two Stage Detection Framework:含Region Proposal,先获取ROI,然后对ROI进行识别和回归Bounding Box,以RCNN系列方法为代表。
2) One Stage Detection Framework:不含Region Proposal,将全图grid化,对每个grid进行识别和回归,以YOLO系列方法为代表
v. 主干网络/多尺度/目标几何形变/上下文信息/Detection Proposal Methods
b. 图像分割:把图像中的每个像素都划分到某一个类别上
i. 常用数据集:Cityscapes、COCO、Pascal VOC、KITTI、PASCAL-Context等
ii. 代表算法:FCN、Mask R-CNN、RetinaNet、DeepLab系列、U-Net、Dilated Concolution、DRN、DANet
iii. 问题:大公司做的模型,不一定能复现得了(比如,Alpha Go,用了谷歌公司大量的卡。自己是显然没有这么多卡的)
iv. Domain Adaptation Semantic Segmentation
1) 用虚拟的去指导真实的?比如用GTA5、Synthia等等游戏场景,直接可以获得一张每个像素都标注好的图片,不花钱。
v. BoxInst:High-Performance Instance Segmentation with Box Annotations
1) “松弛”:比如——只拉一个框框住就行了,不需要逐像素标注了
c. 图像处理:超分辨率、图像修复、虚拟试穿
i. 超分辨率:由一副低分辨率图像或图像序列恢复出高分辨率图像
1) Deep Learning for Image Super-resolution:A Survey
2) 单张图片的超分辨率关键:需要有足够的信息量来支持→要有“先验”?在先验的指导下,从小信息量到大信息量
3) 深度学习:本质上不是单张图片超分辨的问题,因为它有基于学习的过程(几十万对低分辨率-高分辨率图像对来供学习)
a) 对比:CNN——越卷越小,以提取特征;这里——反卷积、空洞卷积
b) 可学习的升采样方法:转置卷积、反卷积、亚像素卷积
ii. 图像修复:对受到损坏的图像进行修复重建或者去除图像中的多余物体
1) VQ-VAE:修复结果有多最优解?(缺损过大时,可能有很多种修复的可能性)
iii. 虚拟试穿:为参考任务穿上指定的服装(和遥感关系不大)
1) 2D方法/3D方法
d. 人脸:人脸识别、人脸检测、人脸生成、人脸编辑、人脸反欺骗
i. 目前的趋势:人脸编辑、人脸反欺骗
ii. A Latent Transformer for Disentangled Face Editing in Images and Videos(github.com/DigitalInc/latent-transformer)
e. 3D:
i. 深度估计:估计RGB图像中每个像素相对拍摄源的距离
1) Deep Learning for Monocular Depth Estimation:A Review(NeuroComputing 2021)
ii. NeRF(Neural Radiance Fields):三维重建、新视角合成、场景分解、场景编辑
1) dellaert.github.io/NeRF21
2) 涉及到颜色、光线等等(经典的3D模型:模型精度很高,但是纹理恢复不行;本方法:纹理恢复很不错,但是模型精度较经典方法稍欠缺)
3) city-super.github.io/citynerf/
iii. 三维重建:根据单视图或者多视图的图像重建三维信息(形状、外观等)
1) 需要建立三角网
2) 难度:在于精度
a) 中药原材料的3D建模?→叶子很薄,建模很难
b) 大坝监测:精度1m,本科生可以做到;精度1mm,院士团队才能做到
c) 做口腔中的一些模型、心脏支架→精度要求更高
d) …
f. 目标跟踪:在连续的视频帧中定位某一物体
i. 基于生成式模型的方法
ii. 基于判别式模型的方法
iii. 基于深度学习的方法
iv. Jialianwu.com/projects/TraDeS.html
v. 问题1:视频中的时空一致性;目标的暂时消失?
g. 文本检测和识别:定位/识别中的文字
i. OCR:github.com/FangShancheng/ABINet
1) 考虑字的上下文信息等等约束
4. 计算机视觉的论文怎么读:
a. 需要尽最大可能性阅读最新论文,紧跟时代潮流(A类会议:中国计算机协会…)
i. 论文:审稿慢;会议:发表快。因此在计算机视觉这个竞争强的领域,大家倾向于发会议,以防止自己的成果被发表时已经过时
ii. 论文:可能会被别人拖,然后思路被别人拿走,抢先发表了。
b. 看大组的最新论文
c. 每篇论文都不会说自己的缺点,只会放大优点(因为目前大家喜欢做短平快的工作)
d. 论文为了出成果,一般只会选择对自己模型有力的数据集验证(调通了性能不好,是一个比较好的事情。需要结合自己的应用目的,去改代码,把性能提上来)
e. Code+Paper:论文因为要投稿和发表顶会,故意会云里雾里引入很多概念和公式,当对比代码,关键trick,才能返璞归真
f. 对于自己关注的领域,可能每篇有影响的,实验结果不是state-of-the-art也要关注
g. 从原文阅读思考(一些微信公众号、知乎喜欢发读后感,有时候却理解不对)、和作者邮箱联系寻找答案
5. A类论文的发表、审稿、写作 → 看计算机学院的讲座