欢迎光临散文网 会员登陆 & 注册

【一起啃书】深度学习入门(三)

2023-08-04 16:30 作者:Eric_Richard  | 我要投稿
dx[np.arange(batch_size), self.t] -= 1
对于else后面的代码我是这么理解的,为什么要-1呢。if判断语句为真时,t就是one-hot编码的,e.g[0, 1, 0],else就是t是存的都是index的情况,e.g[2, 1, 2],那么如图所示,我们得到的反向误差是yi-ti,其实真正有用的数据就是one-hot中为1的值所对应的index,所以这里就直接利用softmax输出的y的值,然后利用每个行坐标下对应的列坐标index的dx直接减去1,达到的效果和t为one-hot编码得到的是一样的。希望我这么说能解释清楚,还没弄懂的可以像我一样写写画画

【一起啃书】深度学习入门(三)的评论 (共 条)

分享到微博请遵守国家法律