欢迎光临散文网会员登陆 & 注册

【深度学习保姆级教学】草履虫都能看懂！理论到实战、入门到起飞！人工智能基础入门必

2023-06-14 18:43 作者:喵_喵_咪_呀 0人读过 | 我要投稿

理论部分完结版全集笔记！包含网址，重要课件截屏，理解，精华弹幕。

为什么所有笔记都是前三课😂让我来续写👻

4-视觉任务中遇到的问题 P4 - 02:50

一般只玩小数据集，因为配置。

k近邻做图形分类的缺点：不知道什么是背景，什么是主体。

接下来神经网络的各个小部分：

5-得分函数 P5 - 00:09

一张图像中有3072个像素点，不同位置像素点的重要程度不同，所以每一个像素点对应一个权重，x就是像素矩阵，w就是权重矩阵，矩阵相乘得到一个数字。不同的类别，对于不同位置的像素重要程度也不同，所以每一个类别有一个权重矩阵。分别相乘，即可得到对应每一个类别的一个得分。把不同类的权重矩阵合在一起得到W矩阵。f即为这张图像对应多个类别的得分。b偏置参数起到微调的作用，对不同类别进行微调。

W最开始的时候是随机数，然后深度学习要做的就是找到最合适的W.

6-损失函数的作用 P6 - 00:04

损失函数就是用来描述当前W值进行分类，结果的好坏程度，可以定义不同的损失函数。比如上图这个损失函数，图中加1是为了有区分度，比如一张猫猫图，分类结果的得分车3.18 猫3.2虽然分对了，但其实说明分的不是很好（类似于选择题纠结之后选对），所以损失函数应该表现出这种不好，而不是因为＜0而表现不出来。损失函数越大，表示分类效果越不好。

7-前向传播整体流程 P7 - 00:13

损失值相同的情况下，如何判断模型的优良？

上图中，第二个更好，因为第一个只考虑了局部，会导致过拟合

加入正则化惩罚项：只考虑w矩阵的数值，不考虑数据。

“λ”是一个惩罚系数。

如何将得分值，变为概率值：

softmax分类器：

为什么要用e的x次呢？将差距扩大，比如上图的3.2和5.1之间的差距较小，但是经过e的x次后，两者的差距将变大

得到概率值后如何得到损失值？

只看正确分类的概率p，-log(p)

1-返向传播计算方法 P8 - 00:07

如何根据损失值来反向更新w

多层：eg:背景不重要-->看胡须-->看眼睛

梯度下降---非常生动具体的例子：

1-返向传播计算方法 P8 - 03:41

链式法则，梯度是一步一步传的。

2-神经网络整体架构 P9 - 00:07

逐层之间求导：求出一层导函数，把自变量代入，乘以上层传下来的梯度

可以整体一大块儿计算

技巧

这个老师建议不用看生物学的类比部分

上图是一张特别特别重要的图：

hidden layer1: 将较少的三个特征，转化为较多个特征（这个中间结果，对人类无意义，对计算机相对有意义）

层与层之间的箭头，就是我们所学的w

上图指明了矩阵的维度

能否将多层化为一层，将权重矩阵乘在一起？

不能，因为每一层后都会用一次非线性函数

神经网络的参数越多越好吗？

神经元个数越多越好吗？

越多越慢越容易过拟合

网址：hthttp://cs.stanford.edu/people/karpathy/convnetjs/demo/classify2d.html

神经元的个数，就像切刀次数，

一神经元（切一刀）：

两神经元（切两刀）：

三神经元（切三刀）：

过拟合现象：比如下图圈主的绿色，更可能是异常点，本应是红色。

5-正则化与激活函数 P12 - 01:00

每加一个神经元，其实都是增加了一组神经元（比如每一个像素点都要对应一个参数）

惩罚力度对分类的影响：

力度下，容易过拟合，某些w过高

力度大，

评价神经网络的好坏：看测试集，而不是训练集。

参数个数对结果的影响：

激活函数对比：

sigmod的缺点：

靠两边时候，梯度约等于0，梯度消失，无法传递

ReLu：现在最常用的，

6-神经网络过拟合解决方法 P13 - 00:05

数据预处理：

标准化：

参数初始化：

也很重要！！w矩阵的随机值赋值方式

注意初始化时候，w的值应该较小

过拟合问题的缓解：

正则化

drop-out:

互相伤害。

妙哉，随机选择（可以设定选择的比例，比如50%）几个神经元不去迭代

测试阶段就是正常测试，不存在杀死。

-------------------------------------------------------

总结，首先有x然后预处理，得到输入层，通过随机初始化的权重参数矩阵w,得到隐藏层，可以有很多层隐藏层，每层隐藏层后需要一个激活函数（常用relu).

得到输出后，求出损失值，前向传播，逐层求偏导（relu也需要）得到新的w。

百分之99的神经网络都会过拟合，对此有很多解决方案，比如：drop-out，正则化

1-卷积神经网络应用领域 P14 - 00:13

计算机视觉

神经网络

卷积神经网络

超分辨率重构

医学任务

ocr

无人驾驶

人脸识别

的简单介绍

2-卷积的作用 P15 - 00:11

与传统网络的区别，维度

整体架构

绿色的叫特征图feature map，蓝色的小数是w(f即卷积核)

3-卷积特征值计算方法 P16 - 00:08

三个通道分别计算后相加得到结果

生动的例子：

3-卷积特征值计算方法 P16 - 03:03

卷积核filter

内积

各个通道内积，三通道加起来

红色和粉色分别对应f1,f2,绿色表示对应的两种特征图，每一个绿色格子，表示经过移动后算出的一个数字。

4-得到特征图表示 P17 - 00:02

f可以有多个，f1,f2,f3...得到对应的多个feature-map（类似通道，下一步卷积时候就要加上）.多个f维度大小必须是相同的

5-步长与卷积核大小对结果的影响 P18 - 00:02

6-边缘填充方法 P19 - 00:08

填充多少圈？填充为什么数值

卷积核个数：取决于需要多少特征图

7-特征图尺寸计算与参数共享 P20 - 00:05

参数过多怎么办？

参数共享：

区域不随图片区域位置变化

池化层（做压缩或下采样）：

maxpooling最大池化

为什么取最大值？最大值意味着更重要

还有平均池化（效果不好，不常用）

9-整体网络架构 P22 - 00:09

如何从层得到预测结果

将得到的多维特征图，拉成一个超长的特征向量，因为连接层，只能处理一维的

什么才能称为一层？

带有参数计算的，relu不算，池化不算。全连接层算

10-VGG网络架构 P23 - 00:26

层数越多未必越好

解决方案：Resnet

同等映射，表现不好的层，我就不用他，权重设为0，将上一层同等映射给下一层.

保底的思想

自己用神经网络训练时，直接用经典网络！因为自己搭建一个好的网络结构可能需要一年时间。妙哉

12-感受野的作用 P25 - 00:07

感受野，就是当前层能感受到的上一层的范围

越大越好

递归神经网络

0-RNN网络架构解读 P26 - 00:03

时间序列，如何考虑到时间的因素

隐藏层：x2输入的时候，x1的中间结果会一起参与计算。x3输入的时候，就会和x1,x2一起

rnn用于语言处理NLP

使用word2rec 将单词转换为向量

rnn的问题：第一万个数据会考虑前9999个结果，可能会产生误差，比如说第一万句时候，第一句可能没什么关联。解决方案：健忘

1-词向量模型通俗解释 P27 - 00:11

word2rec：要考虑顺序和位置，近义词表示同样的含义

词向量空间：一般为50维到300维，不确定的时候，推荐使用300维

有了向量，就可以计算相似度

2-模型整体框架 P28 - 03:37

词-->语料库大表（存储了每个词对应语料库维度的各个参数,最初是随机的）-->词向量-->输出-->更新语料库大表，和权重参数

3-训练数据构建 P29 - 00:01

数据从哪里来？随便！

如何构建训练数据？滑动窗口

4-CBOW与Skip-gram模型 P30 - 00:14

cbow:输入上下文，输出中间部分

skipgram:输入中间词，预测上下文

工具包:gensim

词库中有5w个词语的话，就是五万类分类。太大了，如何改进？

原来是A预测B，现在是A,B输入，预测可能性的大小，即成为了两分类问题。从而去更新网络。两分类问题的数据集，不能都是1，否则导致过拟合，应该引入0

5-负采样方案 P31 - 02:08

引入0，称为负样本（负采样模型）

多少个合适呢？一般推荐5个

这部分word2rec着实没太理解：咋就成二分类问题了？？只是训练能够使用二分类来训练，那预测的时候呢，不还是得找到词库中每个词语？？（麻烦大佬评论告知）

0-简介与安装 P32 - 00:00

要用keras貌似用tensorflow才是大势所趋。学别的教程去啦

标签：

【深度学习保姆级教学】草履虫都能看懂！理论到实战、入门到起飞！人工智能基础入门必的评论 (共条)