【课堂笔记】计算机视觉若干研究课题报告

2022-04-08 14:09 作者:梅狄威尔 0人读过 | 我要投稿

1. 视觉：人类获取信息的主要方式

a. 朱松纯，计算机视觉国际权威

b. 计算机：最好的论文发到会议（以及期刊）上

i. CVPR

ii. ICCV

iii. ECCV

2. 计算机视觉简单介绍

a. 利用摄像机以及电脑替代人眼对目标进行识别、跟踪、测量和判断决策等，并进一步做图形处理，使电脑处理的信息称为更适合人眼观察或传送给仪器检测的图像。

b. 发展历史

i. Marr计算视觉

ii. 多视几何与分层三维重建

1) 精度很高，目前很多应用场景下有很重要的应用。摄影测量很多人都在做。

2) 成本较高，不够自动化，不够快（相较于深度学习）。

a) 例如：该方法重建A杯子过程中的“经验”，不能用于重建B杯子。（因为没有学习过程）

3) 渲染：能够把光纤的折射、散射等等都追踪出来；而三维重建重在几何的重建，难以像渲染一样，把颜色等等也恢复出来。

iii. 基于学习的视觉（深度学习）

c. 不一样的思路：“计算机式的处理方法”vs“类脑的处理方法”？（不同的研究人员会采用不一样的方式）

d. 一些Topics

i. 3D from a single image and shape-from-x

1) 让主播变成3D的

2) 医学上应用

ii. Detection and localization in 2D and 3D

iii. Image and video synthesis

1) 一些不靠谱的应用：可见光生成SAR？医学上的某个影像生成另一个影像？→可能没什么用，因为可能做出来的都是假的。

2) 比较踏实的应用：做娱乐

iv. Recognition and classification

v. Transfer/Low-shot/Semi/Unsupervised Learning

1) 机器学习依赖于样本和标注→医学+计算机视觉发论文，重要的是数据集大小。因此一些Nature/Science上的医学+计算机视觉的文章可能作者达到几十上百个

2) 此处的思路：模型的复用

a) Transfer：模型修改一下用到别的地方

b) Low-shot

c) Semi-Unsupervised：半监督/无监督

e. “数据标注公司”

f. 目前计算机的会议，都要求放代码，放数据。因此对什么方法感兴趣，去看论文，复现通常不是很难。

g. “人工智能”的三起三落：

i. …支持向量机的提出…

3. 一些Topics介绍

a. 目标检测：输入一张图像，输出图像中的物体位置和类别

i. 位置：用Bounding Box描述，也可以通过像素的集合描述

ii. 过程

1) Object Classification

2) Generic Object Detection（Bounding Box，Localization）

3) Sematic Segmentation

4) Object Instance Segmentation

iii. 问题：

1) 目标（前景）之外的“背景”的识别——还要区分“是背景”和“不是背景”的部分

2) 训练集中标注的“目标”太大→不适用于卫星遥感影像（目标太小）→主要应用与无人机遥感影像等等

3) 到21、22年：基本上提出的网络，都能考到“100分”→目前的发展方向：加噪声、限定训练集大小等等，期望网络在此条件下表现也能很好。

a) 加干扰（扰动）→神经网络攻击→对抗

b) 为什么要用“攻击”描述？

i) 此前的一些识别算法是“可解释”的，因此比如如果加扰动之后，发现不对了，能找出是哪个地方不对。而深度网络，过于复杂，加扰动识别出错之后不知道是哪里出错了。可以视为这个网络在扰动下整个就不行了。

ii) 应用前景：自动驾驶，如果通过一些扰动，使得其识别结果出现很大的错误，就会造成事故

iii) 神经网络的进攻与防御：自己的网络不要让别人知道

4) 在训练集上很好，在真实世界中表现差？Towards Open World Object Detection（github.com/JosephKJ/OWOD）

a) 解决问题：不要强行分类。还要分出“不认识”的类。（即：可以“拒绝”）

iv. 方法：

1) Two Stage Detection Framework：含Region Proposal，先获取ROI，然后对ROI进行识别和回归Bounding Box，以RCNN系列方法为代表。

2) One Stage Detection Framework：不含Region Proposal，将全图grid化，对每个grid进行识别和回归，以YOLO系列方法为代表

v. 主干网络/多尺度/目标几何形变/上下文信息/Detection Proposal Methods

b. 图像分割：把图像中的每个像素都划分到某一个类别上

i. 常用数据集：Cityscapes、COCO、Pascal VOC、KITTI、PASCAL-Context等

ii. 代表算法：FCN、Mask R-CNN、RetinaNet、DeepLab系列、U-Net、Dilated Concolution、DRN、DANet

iii. 问题：大公司做的模型，不一定能复现得了（比如，Alpha Go，用了谷歌公司大量的卡。自己是显然没有这么多卡的）

iv. Domain Adaptation Semantic Segmentation

1) 用虚拟的去指导真实的？比如用GTA5、Synthia等等游戏场景，直接可以获得一张每个像素都标注好的图片，不花钱。

v. BoxInst：High-Performance Instance Segmentation with Box Annotations

1) “松弛”：比如——只拉一个框框住就行了，不需要逐像素标注了

c. 图像处理：超分辨率、图像修复、虚拟试穿

i. 超分辨率：由一副低分辨率图像或图像序列恢复出高分辨率图像

1) Deep Learning for Image Super-resolution：A Survey

2) 单张图片的超分辨率关键：需要有足够的信息量来支持→要有“先验”？在先验的指导下，从小信息量到大信息量

3) 深度学习：本质上不是单张图片超分辨的问题，因为它有基于学习的过程（几十万对低分辨率-高分辨率图像对来供学习）

a) 对比：CNN——越卷越小，以提取特征；这里——反卷积、空洞卷积

b) 可学习的升采样方法：转置卷积、反卷积、亚像素卷积

ii. 图像修复：对受到损坏的图像进行修复重建或者去除图像中的多余物体

1) VQ-VAE：修复结果有多最优解？（缺损过大时，可能有很多种修复的可能性）

iii. 虚拟试穿：为参考任务穿上指定的服装（和遥感关系不大）

1) 2D方法/3D方法

d. 人脸：人脸识别、人脸检测、人脸生成、人脸编辑、人脸反欺骗

i. 目前的趋势：人脸编辑、人脸反欺骗

ii. A Latent Transformer for Disentangled Face Editing in Images and Videos（github.com/DigitalInc/latent-transformer）

e. 3D：

i. 深度估计：估计RGB图像中每个像素相对拍摄源的距离

1) Deep Learning for Monocular Depth Estimation：A Review（NeuroComputing 2021）

ii. NeRF（Neural Radiance Fields）：三维重建、新视角合成、场景分解、场景编辑

1) dellaert.github.io/NeRF21

2) 涉及到颜色、光线等等（经典的3D模型：模型精度很高，但是纹理恢复不行；本方法：纹理恢复很不错，但是模型精度较经典方法稍欠缺）

3) city-super.github.io/citynerf/

iii. 三维重建：根据单视图或者多视图的图像重建三维信息（形状、外观等）

1) 需要建立三角网

2) 难度：在于精度

a) 中药原材料的3D建模？→叶子很薄，建模很难

b) 大坝监测：精度1m，本科生可以做到；精度1mm，院士团队才能做到

c) 做口腔中的一些模型、心脏支架→精度要求更高

d) …

f. 目标跟踪：在连续的视频帧中定位某一物体

i. 基于生成式模型的方法

ii. 基于判别式模型的方法

iii. 基于深度学习的方法

iv. Jialianwu.com/projects/TraDeS.html

v. 问题1：视频中的时空一致性；目标的暂时消失？

g. 文本检测和识别：定位/识别中的文字

i. OCR：github.com/FangShancheng/ABINet

1) 考虑字的上下文信息等等约束

4. 计算机视觉的论文怎么读：

a. 需要尽最大可能性阅读最新论文，紧跟时代潮流（A类会议：中国计算机协会…）

i. 论文：审稿慢；会议：发表快。因此在计算机视觉这个竞争强的领域，大家倾向于发会议，以防止自己的成果被发表时已经过时

ii. 论文：可能会被别人拖，然后思路被别人拿走，抢先发表了。

b. 看大组的最新论文

c. 每篇论文都不会说自己的缺点，只会放大优点（因为目前大家喜欢做短平快的工作）

d. 论文为了出成果，一般只会选择对自己模型有力的数据集验证（调通了性能不好，是一个比较好的事情。需要结合自己的应用目的，去改代码，把性能提上来）

e. Code+Paper：论文因为要投稿和发表顶会，故意会云里雾里引入很多概念和公式，当对比代码，关键trick，才能返璞归真

f. 对于自己关注的领域，可能每篇有影响的，实验结果不是state-of-the-art也要关注

g. 从原文阅读思考（一些微信公众号、知乎喜欢发读后感，有时候却理解不对）、和作者邮箱联系寻找答案

5. A类论文的发表、审稿、写作 → 看计算机学院的讲座

标签：

【课堂笔记】计算机视觉若干研究课题报告

【课堂笔记】计算机视觉若干研究课题报告的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

【课堂笔记】计算机视觉若干研究课题报告

本文作者的其他文章

【课堂笔记】计算机视觉若干研究课题报告的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

【课堂笔记】计算机视觉若干研究课题报告的评论 (共条)