Tensorflow学习笔记1
标签是我们要预测的事物,即\(y\)变量。
特征是输入变量,即\(x\)变量。
样本是指数据的特定实例。
样本分为以下两类:
-
有标签样本
-
无标签样本
有标签样本同时包含特征和标签。
我们使用有标签样本来训练模型。在使用有标签样本训练了我们的模型之后,我们会使用该模型来预测无标签样本的标签。
模型定义了特征与标签之间的关系。
回归模型可预测连续值。
分类模型可预测离散值。
线性回归是一种找到最适合一组点的直线或超平面的方法。
平方误差(又称为 L2 误差)
= (observation - prediction(x))2
= (y - y')2
均方误差 (MSE) 指的是每个样本的平均平方损失。要计算 MSE,请求出各个样本的所有平方误差之和,然后除以样本数量: $$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$ 其中:
- \(prediction(x)\) 指的是权重和偏差与特征集 \(x\) 结合的函数。
- \(D\) 指的是包含多个有标签样本(即 \((x,y)\))的数据集。
降低损失 (Reducing Loss):梯度下降法
梯度是偏导数的矢量。梯度是一个矢量,因此具有以下两个特征:
- 方向
- 大小
梯度下降法算法会沿着负梯度的方向走一步,以便尽快降低损失。
梯度下降法算法用梯度乘以一个称为学习速率(有时也称为步长)的标量,以确定下一个点的位置。例如,如果梯度大小为 2.5,学习速率为 0.01,则梯度下降法算法会选择距离前一个点 0.025 的位置作为下一个点。
通过从我们的数据集中随机选择样本,我们可以通过小得多的数据集估算(尽管过程非常杂乱)出较大的平均值。 随机梯度下降法 (SGD) 将这种想法运用到极致,它每次迭代只使用一个样本(批量大小为 1)。如果进行足够的迭代,SGD 也可以发挥作用,但过程会非常杂乱。“随机”这一术语表示构成各个批量的一个样本都是随机选择的。
小批量随机梯度下降法(小批量 SGD)是介于全批量迭代与 SGD 之间的折衷方案。小批量通常包含 10-1000 个随机选择的样本。小批量 SGD 可以减少 SGD 中的杂乱样本数量,但仍然比全批量更高效。