随笔记录线性回归Q&A
计算二阶导数时可能会遇到什么问题?这些问题可以如何解决?
二阶导结果的矩阵相较于一阶导太大了,而且二阶导可能不存在。可以用近似牛顿法
batchsize是否会影响模型最终结果?batchsize过小是否不好?
在直觉上我们会认为batchsize过小会不好,因为每次喂的数据量很小,但在深度学习过程中反而可能是好事,由于多做几遍循环的情况下,训练出的模型可能鲁棒性会更好。
为什么在squared_loss
函数中需要使用reshape
函数?
一个可能是行向量,一个可能是列向量
源码中的@torch.no_grad()中的@是什么意思
@torch.no_grad() 是装饰器,好像代表以下代码都在torch.no_grad() 运行后执行
假设试图为电压和电流的关系建立一个模型。自动微分可以用来学习模型的参数吗?
串联加并联应该都是可以的