欢迎光临散文网 会员登陆 & 注册

【课堂笔记】计算机视觉若干研究课题报告

2022-04-08 14:09 作者:梅狄威尔  | 我要投稿


1. 视觉:人类获取信息的主要方式

a. 朱松纯,计算机视觉国际权威

b. 计算机:最好的论文发到会议(以及期刊)上

i. CVPR

ii. ICCV

iii. ECCV

2. 计算机视觉简单介绍

a. 利用摄像机以及电脑替代人眼对目标进行识别、跟踪、测量和判断决策等,并进一步做图形处理,使电脑处理的信息称为更适合人眼观察或传送给仪器检测的图像。

b. 发展历史

i. Marr计算视觉

ii. 多视几何与分层三维重建

1) 精度很高,目前很多应用场景下有很重要的应用。摄影测量很多人都在做。

2) 成本较高,不够自动化,不够快(相较于深度学习)。

a) 例如:该方法重建A杯子过程中的“经验”,不能用于重建B杯子。(因为没有学习过程)

3) 渲染:能够把光纤的折射、散射等等都追踪出来;而三维重建重在几何的重建,难以像渲染一样,把颜色等等也恢复出来。

iii. 基于学习的视觉(深度学习)

c. 不一样的思路:“计算机式的处理方法”vs“类脑的处理方法”?(不同的研究人员会采用不一样的方式)

d. 一些Topics

i. 3D from a single image and shape-from-x

1) 让主播变成3D的

2) 医学上应用

ii. Detection and localization in 2D and 3D

iii. Image and video synthesis

1) 一些不靠谱的应用:可见光生成SAR?医学上的某个影像生成另一个影像?→可能没什么用,因为可能做出来的都是假的。

2) 比较踏实的应用:做娱乐

iv. Recognition and classification

v. Transfer/Low-shot/Semi/Unsupervised Learning

1) 机器学习依赖于样本和标注→医学+计算机视觉发论文,重要的是数据集大小。因此一些Nature/Science上的医学+计算机视觉的文章可能作者达到几十上百个

2) 此处的思路:模型的复用

a) Transfer:模型修改一下用到别的地方

b) Low-shot

c) Semi-Unsupervised:半监督/无监督

e. “数据标注公司”

f. 目前计算机的会议,都要求放代码,放数据。因此对什么方法感兴趣,去看论文,复现通常不是很难。

g. “人工智能”的三起三落:

i. …支持向量机的提出…

3. 一些Topics介绍

a. 目标检测:输入一张图像,输出图像中的物体位置和类别

i. 位置:用Bounding Box描述,也可以通过像素的集合描述

ii. 过程

1) Object Classification

2) Generic Object Detection(Bounding Box,Localization)

3) Sematic Segmentation

4) Object Instance Segmentation

iii. 问题:

1) 目标(前景)之外的“背景”的识别——还要区分“是背景”和“不是背景”的部分

2) 训练集中标注的“目标”太大→不适用于卫星遥感影像(目标太小)→主要应用与无人机遥感影像等等

3) 到21、22年:基本上提出的网络,都能考到“100分”→目前的发展方向:加噪声、限定训练集大小等等,期望网络在此条件下表现也能很好。

a) 加干扰(扰动)→神经网络攻击→对抗

b) 为什么要用“攻击”描述?

i) 此前的一些识别算法是“可解释”的,因此比如如果加扰动之后,发现不对了,能找出是哪个地方不对。而深度网络,过于复杂,加扰动识别出错之后不知道是哪里出错了。可以视为这个网络在扰动下整个就不行了。

ii) 应用前景:自动驾驶,如果通过一些扰动,使得其识别结果出现很大的错误,就会造成事故

iii) 神经网络的进攻与防御:自己的网络不要让别人知道

4) 在训练集上很好,在真实世界中表现差?Towards Open World Object Detection(github.com/JosephKJ/OWOD)

a) 解决问题:不要强行分类。还要分出“不认识”的类。(即:可以“拒绝”)

iv. 方法:

1) Two Stage Detection Framework:含Region Proposal,先获取ROI,然后对ROI进行识别和回归Bounding Box,以RCNN系列方法为代表。

2) One Stage Detection Framework:不含Region Proposal,将全图grid化,对每个grid进行识别和回归,以YOLO系列方法为代表

v. 主干网络/多尺度/目标几何形变/上下文信息/Detection Proposal Methods

b. 图像分割:把图像中的每个像素都划分到某一个类别上

i. 常用数据集:Cityscapes、COCO、Pascal VOC、KITTI、PASCAL-Context等

ii. 代表算法:FCN、Mask R-CNN、RetinaNet、DeepLab系列、U-Net、Dilated Concolution、DRN、DANet

iii. 问题:大公司做的模型,不一定能复现得了(比如,Alpha Go,用了谷歌公司大量的卡。自己是显然没有这么多卡的)

iv. Domain Adaptation Semantic Segmentation

1) 用虚拟的去指导真实的?比如用GTA5、Synthia等等游戏场景,直接可以获得一张每个像素都标注好的图片,不花钱。

v. BoxInst:High-Performance Instance Segmentation with Box Annotations

1) “松弛”:比如——只拉一个框框住就行了,不需要逐像素标注了

c. 图像处理:超分辨率、图像修复、虚拟试穿

i. 超分辨率:由一副低分辨率图像或图像序列恢复出高分辨率图像

1) Deep Learning for Image Super-resolution:A Survey

2) 单张图片的超分辨率关键:需要有足够的信息量来支持→要有“先验”?在先验的指导下,从小信息量到大信息量

3) 深度学习:本质上不是单张图片超分辨的问题,因为它有基于学习的过程(几十万对低分辨率-高分辨率图像对来供学习)

a) 对比:CNN——越卷越小,以提取特征;这里——反卷积、空洞卷积

b) 可学习的升采样方法:转置卷积、反卷积、亚像素卷积

ii. 图像修复:对受到损坏的图像进行修复重建或者去除图像中的多余物体

1) VQ-VAE:修复结果有多最优解?(缺损过大时,可能有很多种修复的可能性)

iii. 虚拟试穿:为参考任务穿上指定的服装(和遥感关系不大)

1) 2D方法/3D方法

d. 人脸:人脸识别、人脸检测、人脸生成、人脸编辑、人脸反欺骗

i. 目前的趋势:人脸编辑、人脸反欺骗

ii. A Latent Transformer for Disentangled Face Editing in Images and Videos(github.com/DigitalInc/latent-transformer)

e. 3D:

i. 深度估计:估计RGB图像中每个像素相对拍摄源的距离

1) Deep Learning for Monocular Depth Estimation:A Review(NeuroComputing 2021)

ii. NeRF(Neural Radiance Fields):三维重建、新视角合成、场景分解、场景编辑

1) dellaert.github.io/NeRF21

2) 涉及到颜色、光线等等(经典的3D模型:模型精度很高,但是纹理恢复不行;本方法:纹理恢复很不错,但是模型精度较经典方法稍欠缺)

3) city-super.github.io/citynerf/

iii. 三维重建:根据单视图或者多视图的图像重建三维信息(形状、外观等)

1) 需要建立三角网

2) 难度:在于精度

a) 中药原材料的3D建模?→叶子很薄,建模很难

b) 大坝监测:精度1m,本科生可以做到;精度1mm,院士团队才能做到

c) 做口腔中的一些模型、心脏支架→精度要求更高

d) …

f. 目标跟踪:在连续的视频帧中定位某一物体

i. 基于生成式模型的方法

ii. 基于判别式模型的方法

iii. 基于深度学习的方法

iv. Jialianwu.com/projects/TraDeS.html

v. 问题1:视频中的时空一致性;目标的暂时消失?

g. 文本检测和识别:定位/识别中的文字

i. OCR:github.com/FangShancheng/ABINet

1) 考虑字的上下文信息等等约束

4. 计算机视觉的论文怎么读:

a. 需要尽最大可能性阅读最新论文,紧跟时代潮流(A类会议:中国计算机协会…)

i. 论文:审稿慢;会议:发表快。因此在计算机视觉这个竞争强的领域,大家倾向于发会议,以防止自己的成果被发表时已经过时

ii. 论文:可能会被别人拖,然后思路被别人拿走,抢先发表了。

b. 看大组的最新论文

c. 每篇论文都不会说自己的缺点,只会放大优点(因为目前大家喜欢做短平快的工作)

d. 论文为了出成果,一般只会选择对自己模型有力的数据集验证(调通了性能不好,是一个比较好的事情。需要结合自己的应用目的,去改代码,把性能提上来)

e. Code+Paper:论文因为要投稿和发表顶会,故意会云里雾里引入很多概念和公式,当对比代码,关键trick,才能返璞归真

f. 对于自己关注的领域,可能每篇有影响的,实验结果不是state-of-the-art也要关注

g. 从原文阅读思考(一些微信公众号、知乎喜欢发读后感,有时候却理解不对)、和作者邮箱联系寻找答案

5. A类论文的发表、审稿、写作 → 看计算机学院的讲座


【课堂笔记】计算机视觉若干研究课题报告的评论 (共 条)

分享到微博请遵守国家法律