深度学习相关数学知识点笔记

高斯分布

高斯分布，也被称为正态分布，是概率论和统计学中最为常见的分布之一。它的概率密度函数（Probability Density Function, PDF）可以用以下公式表示：

其中，是均值，是方差。高斯分布的形状由均值决定，方差决定了分布的"宽度"。当且时，高斯分布被称为标准正态分布。

以下是一个简单的例子，说明了高斯分布的应用：

假设考虑一个班级的学生成绩，如果成绩的分布符合高斯分布，那么这意味着大多数学生的成绩接近平均分（均值），而离平均分越远的成绩出现的概率越小。这是因为高斯分布是钟形曲线，中心在均值处，向两侧逐渐减小。

例如，一个均值为 70 分，方差为 10 分的高斯分布可能表示学生在考试中的成绩分布。大多数学生的成绩在 60 到 80 分之间，而极端高或低分数的学生较少。

高斯分布在自然界中的许多现象中都有所体现，例如身高分布、温度分布等。由于中心极限定理，许多随机变量的和或均值在足够大的样本量下也会趋向于高斯分布。因此，高斯分布在统计学和概率论中的应用非常广泛。

散度

Kullback-Leibler（KL）散度，也被称为信息散度（information divergence）、相对熵（relative entropy）等，是一种衡量两个概率分布之间差异的度量。假设有两个概率分布和，KL 散度用来衡量当使用概率分布来近似真实分布时的信息损失。

KL 散度的定义如下：

其中，表示概率分布的每个可能的事件。请注意，KL 散度不是对称的，即。它度量的是在事件空间中，用来表示的不确定性的相对增加。

KL 散度在信息论、统计学和机器学习中经常用于衡量两个概率分布的相似性或差异性。在概率密度函数的情况下，积分形式的 KL 散度也是常见的。

在机器学习中，KL 散度常常用于优化模型参数，例如在变分推断（variational inference）和生成对抗网络（GANs）中。

交叉熵损失

交叉熵损失（Cross-Entropy Loss），也被称为负对数似然损失（Negative Log-Likelihood Loss），是在分类问题中常用的损失函数之一。它衡量了模型输出的概率分布与实际标签之间的差异。

对于二分类问题，交叉熵损失定义如下：

其中:

是实际的类别标签（0或1）。
是模型的预测概率，通常是一个介于0和1之间的值。

对于多分类问题，交叉熵损失的定义为：

其中:

是实际的类别标签的独热编码。
是模型对类别的预测概率。

在训练神经网络时，目标是最小化交叉熵损失。这是因为最小化交叉熵损失等价于最大化模型在训练数据上的似然（likelihood），即最大化模型对观测数据的概率。

在实际应用中，交叉熵损失通常与激活函数（如Softmax）一起使用，以确保模型的输出是概率分布。交叉熵损失对错误的惩罚较大，因此能够促使模型更好地逼近真实分布。

多分类的交叉熵损失函数详细说明如下，我们将展开损失函数的公式：

假设有个类别，对于第个样本，它的实际标签是一个独热编码向量，其中表示样本是否属于第个类别。模型的输出是一个概率向量，其中表示模型对样本属于第个类别的预测概率。

交叉熵损失函数的表达式为：

其中和分别表示实际标签和模型输出概率向量的第个元素。

现在，我们展开损失函数的公式：

这个公式表示了实际标签和模型输出之间的差异。当模型对正确类别的预测概率越高时，损失越低；而当模型对正确类别的预测概率越低时，损失越高。整个损失函数的目标是最小化这个累计的差异，使模型更好地拟合训练数据。

在实际的优化过程中，通常使用梯度下降等优化算法来最小化交叉熵损失函数。在深度学习中，这是多分类问题中常用的损失函数之一。

范数

范数（Norm）是定义在向量空间上的一种函数，通常表示向量的大小或长度。在数学和机器学习中，范数是一个非负的标量值，满足以下性质：

非负性（Non-negativity）： 对于任意向量，其范数总是非负的，即。
零向量范数为零（Zero vector norm is zero）： 当且仅当向量是零向量时，其范数为零，即当且仅当。
标量缩放（Scalar scaling）： 对于任意标量，有。
三角不等式（Triangle inequality）： 对于任意两个向量和，有。

在机器学习中，常用的范数包括：

L1 范数（L1 Norm）： 也称为曼哈顿范数，定义为向量中所有元素的绝对值之和：

$ |x|1 = \sum{i=1}^n |x_i| $
L2 范数（L2 Norm）： 也称为欧几里得范数，定义为向量中所有元素的平方和的平方根：

$ |x|2 = \sqrt{\sum{i=1}^n x_i^2} $
Lp 范数（Lp Norm）： 是一个通用的形式，定义为：

$ |x|p = \left(\sum{i=1}^n |x_i|^p\right)^{1/p} $

其中是一个正实数。
无穷范数（Infinity Norm）： 定义为向量中所有元素的绝对值的最大值：

范数在机器学习中常用于正则化项，帮助控制模型的复杂度，防止过拟合。选择合适的范数取决于具体问题和对模型的要求。

余弦相似度

余弦相似度是一种用于衡量两个非零向量之间相似度的度量方法。它主要用于计算向量之间的夹角余弦值，从而判断它们的方向是否相似。余弦相似度的取值范围在 -1 到 1 之间，其中：

1 表示两个向量的方向完全相同。
0 表示两个向量之间夹角为90度，即它们的方向互相垂直。
-1 表示两个向量的方向完全相反。

余弦相似度可以通过以下公式计算：

其中，是向量和的点积（内积），和分别是向量和的范数（模）。

在机器学习和自然语言处理中，余弦相似度常用于文本相似度计算、推荐系统、聚类分析等任务。在文本相似度任务中，常用词袋模型表示文本，然后利用余弦相似度来度量文本之间的相似程度。

似然函数和最大似然函数

最大似然函数（Maximum Likelihood Function）是统计学中用于估计模型参数的一种方法。它基于观察到的样本数据，尝试找到使得这些数据出现的概率最大的模型参数值。

假设有一个统计模型，其参数用表示，而观察到的样本数据集用表示。最大似然函数定义为给定参数下观察到样本数据的概率。通常，我们假设样本之间是独立同分布的。

最大似然函数的表达式为：

其中，是在给定参数的条件下观察到样本数据的概率。

最大似然估计（Maximum Likelihood Estimation，MLE）的思想是选择使得最大似然函数取最大值的参数值，即：

$ \hat{\theta}{\text{MLE}} = \arg\max\theta L(\theta; X) $

这里，表示最大似然估计得到的参数值。

举例来说，假设我们有一个硬币，我们想要估计它出现正面的概率。我们连续投掷硬币次，观察到正面出现次。如果我们假设每次投掷是独立的，且硬币的正反面概率不变，那么投掷出现这个观察结果的概率可以用二项分布表示。最大似然函数将尝试找到使得观察到正面出现次的概率最大的。

在实际应用中，最大似然估计是估计参数的一种常用方法，它具有一些良好的性质，例如一致性和渐近正态性。

当然，拉格朗日函数是解决约束优化问题的一个强大工具。它通过引入拉格朗日乘数将约束集成到目标函数中，从而将有约束的优化问题转换为无约束的问题。以下是详细介绍：

拉格朗日函数

拉格朗日函数的定义

假设我们有一个优化问题，目标是最小化或最大化一个目标函数，受到一些等式约束和不等式约束的限制。其中，是我们要优化的变量，和是约束函数。

拉格朗日函数是定义如下的函数：

这里，和是拉格朗日乘数，它们分别对应于等式约束和不等式约束。

拉格朗日函数的计算过程

构造拉格朗日函数：首先，将目标函数和所有的约束（等式和不等式）整合到一个函数中，通过引入拉格朗日乘数作为新的变量。
求解偏导数：对拉格朗日函数分别对，和求偏导数。这些偏导数应等于零（必要条件），形成一组方程。
求解方程组：解这些方程，找到所有变量的值。这些解可能表示原始问题的候选最优解。

拉格朗日函数的结果

得到的解：通过求解这些方程，可以得到原始优化问题的可能解。在某些情况下（尤其是凸优化问题），这些解是全局最优的。
拉格朗日乘数的含义：在解中，拉格朗日乘数和有特定的经济学或物理学含义。例如，它们可以表示约束条件对目标函数的“价格”或“成本”。
对偶问题：对于每个原始问题，都存在一个对偶问题。在某些条件下（如强对偶性成立时），原始问题和对偶问题的最优解相同。这允许通过解决对偶问题来间接解决原始问题，有时这更有效率。

总之，拉格朗日函数是处理约束优化问题的关键工具，它通过将约束条件融入目标函数来简化问题求解过程。这种方法在经济学、工程学、物理学和机器学习等领域都有广泛应用。

对偶函数

对偶函数在优化理论中是一个重要的概念，特别是在处理有约束的优化问题时。对偶函数与原始优化问题（被称为“原问题”）紧密相关，但它提供了一个不同的视角来分析和求解问题。

对偶函数的定义

假设我们有一个原始优化问题，目标是最小化目标函数，受到一些等式和/或不等式约束。拉格朗日函数是将原始问题的目标函数和约束整合在一起的函数，其中和是拉格朗日乘数。

对偶函数定义为拉格朗日函数关于原始变量的最小值，即：

这里，和被视为固定的，而是变化的。

对偶函数的性质

凹性：无论原始问题的目标函数是凸的还是非凸的，对偶函数总是凹函数。
对偶间隙：对偶函数的最大值提供了原始问题最小值的一个下界。这意味着对于所有可行的和，小于或等于原始问题的最小值。
强对偶性和弱对偶性：
- 强对偶性：如果原始问题和对偶问题的最优值相等，即不存在对偶间隙，我们称这种情况为强对偶性。强对偶性通常在原始问题是凸的且满足某些技术条件（如Slater条件）时成立。
- 弱对偶性：在所有情况下，都至少存在弱对偶性，即对偶问题的最优值是原始问题最优值的下界。
解的关系：在强对偶性成立的情况下，通过解对偶问题可以得到原始问题的最优解。这在计算上往往更方便，尤其是当原始问题有很多约束时。

应用

对偶函数在优化理论中非常重要，尤其是在凸优化和支持向量机（SVM）等领域。对偶函数不仅提供了解决原始问题的一个不同途径，而且还揭示了问题的深层结构和性质。通过研究对偶函数，可以更好地理解和解决复杂的优化问题。

Cyria7's Planet