欢迎光临散文网 会员登陆 & 注册

比啃书效果好多了!复旦大学邱锡鹏教授的《神经网络与深度学习》视频教程分享!(计算

2023-02-18 13:21 作者:gcy11kk  | 我要投稿
  1. 通过对权重给予扰动查看变化
  2. 学习准则:经验风险最小化
  3. 二分类估计的交叉熵不用过度准确
  4. 错误驱动:利用出现的错误进行更新难以最优化
  5. logistic回归是交叉熵损失 ,基于犯错程度更新权重,感知器更新与犯错无关


饱和函数(两端梯度接近于0)

大于0表示兴奋,可以用归一化和加偏置来解决偏置偏移

当下常用激活

反向传播省内存

第一个是高斯滤波,能够降噪

第二个是提取高频信息,譬如边缘之类的

  1. 用卷积层代替全连接层,卷积核为要学习的参数
  2. 卷积核翻转在深度学习中不必要,后续指互相关(w顺序与变量顺序一致)
  3. 卷积核是一个特征提取器(由非线性函数,卷积权重和偏置组成),增强卷积核能力:引入多个卷积核,将卷积结果叠加
  4. 池化层(汇聚层):减少神经元个数
  1. 越靠后的视野(感受野)越大,越可能提取高级特征。通过给卷积插入‘空洞’,变相增加大小
  2. 转置卷积:低维特征映射到高位(在输入中插零)

1x1卷积可以对同样位置特征进行深度融合

  1. 非线性单元逼近目标函数时,对于恒等函数(比如线性)的逼近效果比较差,所以将目标函数拆分为两部分,且残差网络不容易出现梯度下降
  2. 还能优化地形,光滑化
  1. 批量越大学习率越大,为解决鞍点问题,可以采用动量方法优化步长
  2. 批量越大,单次更新收敛越快,从整个回合来看,反之。因为小批量走的步长小,次数多,更容易找到最优路径。
  3. 批量越小,随机性越强,泛化能力更好(小样本模型时,泛化性比较重要,容易过拟合)

周期性学习率可以跳出局部最优,提升鲁棒性

一开始梯度较大,学习率直接从高开始容易一步太大


Gt和Mt都是依赖到每一步的梯度上面


比啃书效果好多了!复旦大学邱锡鹏教授的《神经网络与深度学习》视频教程分享!(计算的评论 (共 条)

分享到微博请遵守国家法律