深度学习相关数学知识点笔记

Cyria7 Lv2

高斯分布

高斯分布,也被称为正态分布,是概率论和统计学中最为常见的分布之一。它的概率密度函数(Probability Density Function, PDF)可以用以下公式表示:

其中, 是均值, 是方差。高斯分布的形状由均值决定,方差决定了分布的"宽度"。当 时,高斯分布被称为标准正态分布。

以下是一个简单的例子,说明了高斯分布的应用:

假设考虑一个班级的学生成绩,如果成绩的分布符合高斯分布,那么这意味着大多数学生的成绩接近平均分(均值),而离平均分越远的成绩出现的概率越小。这是因为高斯分布是钟形曲线,中心在均值处,向两侧逐渐减小。

例如,一个均值为 70 分,方差为 10 分的高斯分布可能表示学生在考试中的成绩分布。大多数学生的成绩在 60 到 80 分之间,而极端高或低分数的学生较少。

高斯分布在自然界中的许多现象中都有所体现,例如身高分布、温度分布等。由于中心极限定理,许多随机变量的和或均值在足够大的样本量下也会趋向于高斯分布。因此,高斯分布在统计学和概率论中的应用非常广泛。

散度

Kullback-Leibler(KL)散度,也被称为信息散度(information divergence)、相对熵(relative entropy)等,是一种衡量两个概率分布之间差异的度量。假设有两个概率分布 ,KL 散度 用来衡量当使用概率分布 来近似真实分布 时的信息损失。

KL 散度的定义如下:

其中, 表示概率分布的每个可能的事件。请注意,KL 散度不是对称的,即 。它度量的是在事件空间中,用 来表示 的不确定性的相对增加。

KL 散度在信息论、统计学和机器学习中经常用于衡量两个概率分布的相似性或差异性。在概率密度函数的情况下,积分形式的 KL 散度也是常见的。

在机器学习中,KL 散度常常用于优化模型参数,例如在变分推断(variational inference)和生成对抗网络(GANs)中。

交叉熵损失

交叉熵损失(Cross-Entropy Loss),也被称为负对数似然损失(Negative Log-Likelihood Loss),是在分类问题中常用的损失函数之一。它衡量了模型输出的概率分布与实际标签之间的差异。

对于二分类问题,交叉熵损失定义如下:

其中:

  • 是实际的类别标签(0或1)。
  • 是模型的预测概率,通常是一个介于0和1之间的值。

对于多分类问题,交叉熵损失的定义为:

其中:

  • 是实际的类别标签的独热编码。
  • 是模型对类别 的预测概率。

在训练神经网络时,目标是最小化交叉熵损失。这是因为最小化交叉熵损失等价于最大化模型在训练数据上的似然(likelihood),即最大化模型对观测数据的概率。

在实际应用中,交叉熵损失通常与激活函数(如Softmax)一起使用,以确保模型的输出是概率分布。交叉熵损失对错误的惩罚较大,因此能够促使模型更好地逼近真实分布。

多分类的交叉熵损失函数详细说明如下,我们将展开损失函数的公式:

假设有 个类别,对于第 个样本,它的实际标签是一个独热编码向量 ,其中 表示样本是否属于第 个类别。模型的输出是一个概率向量 ,其中 表示模型对样本属于第 个类别的预测概率。

交叉熵损失函数的表达式为:

其中 分别表示实际标签和模型输出概率向量的第 个元素。

现在,我们展开损失函数的公式:

这个公式表示了实际标签和模型输出之间的差异。当模型对正确类别的预测概率越高时,损失越低;而当模型对正确类别的预测概率越低时,损失越高。整个损失函数的目标是最小化这个累计的差异,使模型更好地拟合训练数据。

在实际的优化过程中,通常使用梯度下降等优化算法来最小化交叉熵损失函数。在深度学习中,这是多分类问题中常用的损失函数之一。

范数

范数(Norm)是定义在向量空间上的一种函数,通常表示向量的大小或长度。在数学和机器学习中,范数是一个非负的标量值,满足以下性质:

  1. 非负性(Non-negativity): 对于任意向量 ,其范数 总是非负的,即

  2. 零向量范数为零(Zero vector norm is zero): 当且仅当向量是零向量时,其范数为零,即 当且仅当

  3. 标量缩放(Scalar scaling): 对于任意标量 ,有

  4. 三角不等式(Triangle inequality): 对于任意两个向量 ,有

在机器学习中,常用的范数包括:

  1. L1 范数(L1 Norm): 也称为曼哈顿范数,定义为向量中所有元素的绝对值之和:

    $ |x|1 = \sum{i=1}^n |x_i| $

  2. L2 范数(L2 Norm): 也称为欧几里得范数,定义为向量中所有元素的平方和的平方根:

    $ |x|2 = \sqrt{\sum{i=1}^n x_i^2} $

  3. Lp 范数(Lp Norm): 是一个通用的形式,定义为:

    $ |x|p = \left(\sum{i=1}^n |x_i|^p\right)^{1/p} $

    其中 是一个正实数。

  4. 无穷范数(Infinity Norm): 定义为向量中所有元素的绝对值的最大值:

范数在机器学习中常用于正则化项,帮助控制模型的复杂度,防止过拟合。选择合适的范数取决于具体问题和对模型的要求。

余弦相似度

余弦相似度是一种用于衡量两个非零向量之间相似度的度量方法。它主要用于计算向量之间的夹角余弦值,从而判断它们的方向是否相似。余弦相似度的取值范围在 -1 到 1 之间,其中:

  • 1 表示两个向量的方向完全相同。
  • 0 表示两个向量之间夹角为90度,即它们的方向互相垂直。
  • -1 表示两个向量的方向完全相反。

余弦相似度 可以通过以下公式计算:

其中, 是向量 的点积(内积), 分别是向量 的范数(模)。

在机器学习和自然语言处理中,余弦相似度常用于文本相似度计算、推荐系统、聚类分析等任务。在文本相似度任务中,常用词袋模型表示文本,然后利用余弦相似度来度量文本之间的相似程度。

似然函数和最大似然函数

最大似然函数(Maximum Likelihood Function)是统计学中用于估计模型参数的一种方法。它基于观察到的样本数据,尝试找到使得这些数据出现的概率最大的模型参数值。

假设有一个统计模型,其参数用 表示,而观察到的样本数据集用 表示。最大似然函数 定义为给定参数 下观察到样本数据 的概率。通常,我们假设样本之间是独立同分布的。

最大似然函数的表达式为:

其中, 是在给定参数 的条件下观察到样本数据 的概率。

最大似然估计(Maximum Likelihood Estimation,MLE)的思想是选择使得最大似然函数取最大值的参数值,即:

$ \hat{\theta}{\text{MLE}} = \arg\max\theta L(\theta; X) $

这里, 表示最大似然估计得到的参数值。

举例来说,假设我们有一个硬币,我们想要估计它出现正面的概率 。我们连续投掷硬币 次,观察到正面出现 次。如果我们假设每次投掷是独立的,且硬币的正反面概率不变,那么投掷出现这个观察结果的概率可以用二项分布表示。最大似然函数将尝试找到使得观察到正面出现 次的概率最大的

在实际应用中,最大似然估计是估计参数的一种常用方法,它具有一些良好的性质,例如一致性和渐近正态性。

当然,拉格朗日函数是解决约束优化问题的一个强大工具。它通过引入拉格朗日乘数将约束集成到目标函数中,从而将有约束的优化问题转换为无约束的问题。以下是详细介绍:

拉格朗日函数

拉格朗日函数的定义

假设我们有一个优化问题,目标是最小化或最大化一个目标函数 ,受到一些等式约束 和不等式约束 的限制。其中, 是我们要优化的变量, 是约束函数。

拉格朗日函数 是定义如下的函数:

这里, 是拉格朗日乘数,它们分别对应于等式约束和不等式约束。

拉格朗日函数的计算过程

  1. 构造拉格朗日函数:首先,将目标函数 和所有的约束(等式和不等式)整合到一个函数中,通过引入拉格朗日乘数作为新的变量。

  2. 求解偏导数:对拉格朗日函数 分别对 求偏导数。这些偏导数应等于零(必要条件),形成一组方程。

  3. 求解方程组:解这些方程,找到所有变量的值。这些解可能表示原始问题的候选最优解。

拉格朗日函数的结果

  • 得到的解:通过求解这些方程,可以得到原始优化问题的可能解。在某些情况下(尤其是凸优化问题),这些解是全局最优的。

  • 拉格朗日乘数的含义:在解中,拉格朗日乘数 有特定的经济学或物理学含义。例如,它们可以表示约束条件对目标函数的“价格”或“成本”。

  • 对偶问题:对于每个原始问题,都存在一个对偶问题。在某些条件下(如强对偶性成立时),原始问题和对偶问题的最优解相同。这允许通过解决对偶问题来间接解决原始问题,有时这更有效率。

总之,拉格朗日函数是处理约束优化问题的关键工具,它通过将约束条件融入目标函数来简化问题求解过程。这种方法在经济学、工程学、物理学和机器学习等领域都有广泛应用。

对偶函数

对偶函数在优化理论中是一个重要的概念,特别是在处理有约束的优化问题时。对偶函数与原始优化问题(被称为“原问题”)紧密相关,但它提供了一个不同的视角来分析和求解问题。

对偶函数的定义

假设我们有一个原始优化问题,目标是最小化目标函数 ,受到一些等式和/或不等式约束。拉格朗日函数 是将原始问题的目标函数和约束整合在一起的函数,其中 是拉格朗日乘数。

对偶函数 定义为拉格朗日函数 关于原始变量 的最小值,即:

这里, 被视为固定的,而 是变化的。

对偶函数的性质

  1. 凹性:无论原始问题的目标函数是凸的还是非凸的,对偶函数总是凹函数。

  2. 对偶间隙:对偶函数 的最大值提供了原始问题最小值的一个下界。这意味着对于所有可行的 小于或等于原始问题的最小值。

  3. 强对偶性和弱对偶性

    • 强对偶性:如果原始问题和对偶问题的最优值相等,即不存在对偶间隙,我们称这种情况为强对偶性。强对偶性通常在原始问题是凸的且满足某些技术条件(如Slater条件)时成立。
    • 弱对偶性:在所有情况下,都至少存在弱对偶性,即对偶问题的最优值是原始问题最优值的下界。
  4. 解的关系:在强对偶性成立的情况下,通过解对偶问题可以得到原始问题的最优解。这在计算上往往更方便,尤其是当原始问题有很多约束时。

应用

对偶函数在优化理论中非常重要,尤其是在凸优化和支持向量机(SVM)等领域。对偶函数不仅提供了解决原始问题的一个不同途径,而且还揭示了问题的深层结构和性质。通过研究对偶函数,可以更好地理解和解决复杂的优化问题。

  • Title: 深度学习相关数学知识点笔记
  • Author: Cyria7
  • Created at : 2024-03-19 14:25:01
  • Updated at : 2024-03-19 14:52:35
  • Link: https://cyria7.github.io/2024/03/19/nndlnotes/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments