DeepLearning读书笔记(一)

Deep Learning读书笔记(一)

  1. 平方L2范数在数学和计算上都比L2范数本身更方便。例如,平方L2范数对x中每个元素的导数只取决于对应的元素,而L2范数对每个元素的导数却和整个向量有关。
  2. 当机器学习问题中零和非零元素之间的差异非常重要时,通常会使用L1范数。每当x中某个元素从0增加eplison,对应的L1范数也会增加eplison。
  3. 如果v是矩阵A的特征向量,那么任何缩放后的向量sv(s in R, s not eq 0)也是A的特征向量。此外,sv和v有相同的特征值。
  4. 虽然任意一个实对称矩阵A都有特征分解,但是特征分解可能并不唯一。特征分解唯一当且仅当所有的特征值都是唯一的。矩阵是奇异的当且仅当含有零特征值。
  5. 所有特征值都是正数的矩阵被称为正定(positive definite);所有特征值都是非负数的矩阵被称为半正定(positive semidefinite)
  6. 每个实数矩阵都有一个奇异值分解,但不一定都有特征分解。通过奇异值分解,我们会得到一些与特征分解相同类型的信息。
  7. 当矩阵A的行数多于列数时,可能没有解。在这种情况下,通过伪逆得到的x使得Axy的欧几里得距离最小。
  8. 行列式(det(A)),是将一个方阵A映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是0,那么空间至少沿着某一位完全收缩了,使其失去了所有的体积。如果行列式是1,那么这个转换保持空间体积不变。
  9. 不确定性有三种可能的来源:
    • 被建模系统内在的随机性。
    • 不完全观测。
    • 不完全建模。
  10. 概率可以被看作是用于处理不确定性的逻辑扩展。
Table of Contents