大白话讲解卷积神经网络工作原理

卷积神经网络是用在计算机视觉,是人工智能的一个分支,计算机视觉就是告诉计算机如何理解图像,比如人脸识别、自动驾驶等
卷积神经网络是一个函数,或者说是一个黑箱,有输入和输出,输入就是一个二维的像素阵列(图片),输出就是图片的类别。哪怕图片经过平移、缩放、旋转、和局部加厚或者说是整体加厚,依旧不会误导计算机,其鲁棒性和抗干扰性很强
虽然图像可能经过了某些变换,但是他依旧保留了原图中的某些特征
卷积运算

- 绿色表示原图像上的像素
- 黄色表示卷积核
- 对应相乘再相加,得到一个新的矩阵叫做feature map
池化(pooling、下采样)

- 作用是将得到的feature map进行缩小,减少数据量,减少数据量就意味着要牺牲一部分信息,但是是在可接受的范围内
- 两种池化操作:max pooling(将区域中最大的值用来代替整个区域)、average pooling(将区域中所有元素的平均值用来代替整个区域)
- 一般使用max pooling,它能在保持原图特征的同时,还能够将图片的尺寸降下来
- 在图片边缘如果像素不够的时候一般会使用padding进行补零操作
正则化(normalization)
ReLU
- 利用ReLU(修正线性单元)激活函数将矩阵中的负数全部置零
- ReLU函数的性质,x < 0 时,y = 0;x > 0 时,y = x
全连接层
- 与前一层的每一个神经元都相连
