优化算法¶ 优化算法 随机梯度下降(SGD) SGD的缺点 随机梯度下降(SGD)¶ SGD的缺点¶ 运算效率:矩阵运算相比单个元素运算更快,因此SGD运算速度可能比对整个数据集的梯度下降还慢 batch normalization等操作不支持SGD