torch.optim.SGD()
随机梯度下降
通过每个样本来迭代更新一次
噪音较多,并不是每次迭代都向着整体最优化方向。
Official Document about SGD
Official Document about SGD