人工智能AI面试题-4.14如何理解反向传播算法BackPropagation

2023-10-16 09:33 作者:机器爱上学习 0人读过 | 我要投稿

4.14 如何理解反向传播算法BackPropagation — 前⾔ 📜 最近在看深度学习的东西，⼀开始看的吴恩达的UFLDL教程，有中⽂版就直接看了，后来发现有些地⽅总是不是很明确，又去看英⽂版，然后又找了些资料看，才发现，中⽂版的译者在翻译的时候会对省略的公式推导过程进⾏补充，但是补充的又是错的，难怪觉得有问题。反向传播法其实是神经⽹络的基础了，但是很多⼈在学的时候总是会遇到⼀些问题，或者看到⼤篇的公式觉得好像很难就退缩了，其实不难，就是⼀个链式求导法则反复⽤。如果不想看公式，可以直接把数值带进去，实际的计算⼀下，体会⼀下这个过程之后再来推导公式，这样就会觉得很容易了。⼆、简单的神经⽹络 🧠 说到神经⽹络，⼤家看到这个图应该不陌⽣：这是典型的三层神经⽹络的基本构成，Layer L1是输⼊层，Layer L2是隐含层，Layer L3是隐含层，我们现在⼿⾥有⼀堆数据{x1,x2,x3,...,xn},输出也是⼀堆数据{y1,y2,y3,...,yn},现在要他们在隐含层做某种变换，让你把数据灌进去后得到你期望的输出。如果你希望你的输出和原始输⼊⼀样，那么就是最常见的⾃编码模型（Auto-Encoder）。 📊 可能有⼈会问，为什么要输⼊输出都⼀样呢？有什么⽤啊？其实应⽤挺⼴的，在图像识别，⽂本分类等等都会⽤到，我会专门再写⼀篇Auto-Encoder的⽂章来说明，包括⼀些变种之类的。如果你的输出和原始输⼊不⼀样，那么就是很常见的⼈⼯神经⽹络了，相当于让原始数据通过⼀个映射来得到我们想要的输出数据，也就是我们今天要讲的话题。 🌟 三、前向传播 🚀 本⽂直接举⼀个例⼦，带⼊数值演⽰反向传播法的过程，公式的推导等到下次写Auto-Encoder的时候再写，其实也很简单，感兴趣的同学可以⾃⼰推导下试试。 🧮 3.1 初始化⼀个⽹络假设，你有这样⼀个⽹络层：第⼀层是输⼊层，包含两个神经元i1，i2，和截距项b1；第⼆层是隐含层，包含两个神经元h1,h2 和截距项b2，第三层是输出o1,o2，每条线上标的wi是层与层之间连接的权重，激活函数我们默认为 Sigmoid函数。 🧪 现在对他们赋上初值，如下图：其中，输⼊数据 i1=0.05，i2=0.10; 输出数据o1=0.01，o2=0.99; 初始权重 w1=0.15，w2=0.20，w3=0.25，w4=0.30; w5=0.40，w6=0.45，w7=0.50，w8=0.55 ⽬标：给出输⼊数据i1,i2(0.05和0.10)，使输出尽可能与原始输出o1,o2(0.01和0.99)接近。 📊 3.2 Step 1 前向传播 3.2.1. 输⼊层 >隐含层：计算神经元h1的输⼊加权和： 🔍 神经元h1的输出o1:(此处⽤到激活函数为Sigmoid函数)：同理，可计算出神经元h2的输出o2： 3.2.2. 隐含层 >输出层：计算输出层神经元o1和o2的值：这样前向传播的过程就结束了，我们得到输出值为[0.75136079 , 0.772928465]，与实际值[0.01 , 0.99]相差还很远，现在我们对误差进⾏反向传播，更新权值，重新计算输出。 🔄 四、反向传播 🔄 4.1 计算总误差总误差：(square error) 📉 但是有两个输出，所以分别计算o1和o2的误差，总误差为两者之和： 4.2 隐含层 >输出层的权值更新：以权重参数w5为例，如果我们想知道w5对整体误差产⽣了多少影响，可以⽤整体误差对w5求偏导求出：（链式法则） 🔍 下⾯的图可以更直观的看清楚误差是怎样反向传播的：现在我们来分别计算每个式⼦的值：计算计算（这⼀步实际上就是对Sigmoid函数求导，⽐较简单，可以⾃⼰推导⼀下）计算最后三者相乘：这样我们就计算出整体误差E(total)对w5的偏导值。回过头来再看看上⾯的公式，我们发现：为了表达⽅便，⽤来表⽰输出层的误差：因此，整体误差E(total)对w5的偏导公式可以写成：如果输出层误差计为负的话，也可以写成：最后我们来更新w5的值（调整策略就是梯度下降）：（其中，是学习速率，这⾥我们取0.5）同理，可更新w6,w7,w8: 4.3 隐含层 >隐含层的权值更新：⽅法其实与上⾯说的差不多，但是有个地⽅需要变⼀下，在上⽂计算总误差对w5的偏导时，是从 out(o1)---->net(o1)---->w5,但是在隐含层之间的权值更新时，是out(h1) >net(h1) >w1,⽽out(h1) 会接受E(o1)和E(o2)两个地⽅传来的误差，所以这个地⽅两个都要计算。 🔄 计算计算同理，计算出：两者相加得到总值：再计算再计算最后，三者相乘：为了简化公式，⽤sigma(h1)表⽰隐含层单元h1的误差：最后，更新w1的权值（继续⽤梯度下降）：同理，额可更新w2,w3,w4的权值：这样误差反向传播法就完成了，最后我们再把更新的权值重新计算，不停地迭代，在这个例⼦中第⼀次迭代之后，总误差E(total)由0.298371109下降⾄0.291027924。迭代10000次后，总误差为0.000035085，输出为[0.015912196,0.984065734](原输⼊为 [0.01,0.99]),证明效果还是不错的。 🎉

标签：

人工智能AI面试题-4.14如何理解反向传播算法BackPropagation

人工智能AI面试题-4.14如何理解反向传播算法BackPropagation的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

人工智能AI面试题-4.14如何理解反向传播算法BackPropagation

本文作者的其他文章

人工智能AI面试题-4.14如何理解反向传播算法BackPropagation的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

人工智能AI面试题-4.14如何理解反向传播算法BackPropagation的评论 (共条)