深度学习相关数学知识点笔记
高斯分布
高斯分布,也被称为正态分布,是概率论和统计学中最为常见的分布之一。它的概率密度函数(Probability Density Function, PDF)可以用以下公式表示:
其中,
以下是一个简单的例子,说明了高斯分布的应用:
假设考虑一个班级的学生成绩,如果成绩的分布符合高斯分布,那么这意味着大多数学生的成绩接近平均分(均值),而离平均分越远的成绩出现的概率越小。这是因为高斯分布是钟形曲线,中心在均值处,向两侧逐渐减小。
例如,一个均值为 70 分,方差为 10 分的高斯分布可能表示学生在考试中的成绩分布。大多数学生的成绩在 60 到 80 分之间,而极端高或低分数的学生较少。
高斯分布在自然界中的许多现象中都有所体现,例如身高分布、温度分布等。由于中心极限定理,许多随机变量的和或均值在足够大的样本量下也会趋向于高斯分布。因此,高斯分布在统计学和概率论中的应用非常广泛。
散度
Kullback-Leibler(KL)散度,也被称为信息散度(information divergence)、相对熵(relative entropy)等,是一种衡量两个概率分布之间差异的度量。假设有两个概率分布
KL 散度的定义如下:
其中,
KL 散度在信息论、统计学和机器学习中经常用于衡量两个概率分布的相似性或差异性。在概率密度函数的情况下,积分形式的 KL 散度也是常见的。
在机器学习中,KL 散度常常用于优化模型参数,例如在变分推断(variational inference)和生成对抗网络(GANs)中。
交叉熵损失
交叉熵损失(Cross-Entropy Loss),也被称为负对数似然损失(Negative Log-Likelihood Loss),是在分类问题中常用的损失函数之一。它衡量了模型输出的概率分布与实际标签之间的差异。
对于二分类问题,交叉熵损失定义如下:
其中:
是实际的类别标签(0或1)。 是模型的预测概率,通常是一个介于0和1之间的值。
对于多分类问题,交叉熵损失的定义为:
其中:
是实际的类别标签的独热编码。 是模型对类别 的预测概率。
在训练神经网络时,目标是最小化交叉熵损失。这是因为最小化交叉熵损失等价于最大化模型在训练数据上的似然(likelihood),即最大化模型对观测数据的概率。
在实际应用中,交叉熵损失通常与激活函数(如Softmax)一起使用,以确保模型的输出是概率分布。交叉熵损失对错误的惩罚较大,因此能够促使模型更好地逼近真实分布。
多分类的交叉熵损失函数详细说明如下,我们将展开损失函数的公式:
假设有
交叉熵损失函数的表达式为:
其中
现在,我们展开损失函数的公式:
这个公式表示了实际标签和模型输出之间的差异。当模型对正确类别的预测概率越高时,损失越低;而当模型对正确类别的预测概率越低时,损失越高。整个损失函数的目标是最小化这个累计的差异,使模型更好地拟合训练数据。
在实际的优化过程中,通常使用梯度下降等优化算法来最小化交叉熵损失函数。在深度学习中,这是多分类问题中常用的损失函数之一。
范数
范数(Norm)是定义在向量空间上的一种函数,通常表示向量的大小或长度。在数学和机器学习中,范数是一个非负的标量值,满足以下性质:
-
非负性(Non-negativity): 对于任意向量
,其范数 总是非负的,即 。 -
零向量范数为零(Zero vector norm is zero): 当且仅当向量是零向量时,其范数为零,即
当且仅当 。 -
标量缩放(Scalar scaling): 对于任意标量
,有 。 -
三角不等式(Triangle inequality): 对于任意两个向量
和 ,有 。
在机器学习中,常用的范数包括:
-
L1 范数(L1 Norm): 也称为曼哈顿范数,定义为向量中所有元素的绝对值之和:
$ |x|1 = \sum{i=1}^n |x_i| $
-
L2 范数(L2 Norm): 也称为欧几里得范数,定义为向量中所有元素的平方和的平方根:
$ |x|2 = \sqrt{\sum{i=1}^n x_i^2} $
-
Lp 范数(Lp Norm): 是一个通用的形式,定义为:
$ |x|p = \left(\sum{i=1}^n |x_i|^p\right)^{1/p} $
其中
是一个正实数。 -
无穷范数(Infinity Norm): 定义为向量中所有元素的绝对值的最大值:
范数在机器学习中常用于正则化项,帮助控制模型的复杂度,防止过拟合。选择合适的范数取决于具体问题和对模型的要求。
余弦相似度
余弦相似度是一种用于衡量两个非零向量之间相似度的度量方法。它主要用于计算向量之间的夹角余弦值,从而判断它们的方向是否相似。余弦相似度的取值范围在 -1 到 1 之间,其中:
- 1 表示两个向量的方向完全相同。
- 0 表示两个向量之间夹角为90度,即它们的方向互相垂直。
- -1 表示两个向量的方向完全相反。
余弦相似度
其中,
在机器学习和自然语言处理中,余弦相似度常用于文本相似度计算、推荐系统、聚类分析等任务。在文本相似度任务中,常用词袋模型表示文本,然后利用余弦相似度来度量文本之间的相似程度。
似然函数和最大似然函数
最大似然函数(Maximum Likelihood Function)是统计学中用于估计模型参数的一种方法。它基于观察到的样本数据,尝试找到使得这些数据出现的概率最大的模型参数值。
假设有一个统计模型,其参数用
最大似然函数的表达式为:
其中,
最大似然估计(Maximum Likelihood Estimation,MLE)的思想是选择使得最大似然函数取最大值的参数值,即:
$ \hat{\theta}{\text{MLE}} = \arg\max\theta L(\theta; X) $
这里,
举例来说,假设我们有一个硬币,我们想要估计它出现正面的概率
在实际应用中,最大似然估计是估计参数的一种常用方法,它具有一些良好的性质,例如一致性和渐近正态性。
当然,拉格朗日函数是解决约束优化问题的一个强大工具。它通过引入拉格朗日乘数将约束集成到目标函数中,从而将有约束的优化问题转换为无约束的问题。以下是详细介绍:
拉格朗日函数
拉格朗日函数的定义
假设我们有一个优化问题,目标是最小化或最大化一个目标函数
拉格朗日函数
这里,
拉格朗日函数的计算过程
-
构造拉格朗日函数:首先,将目标函数
和所有的约束(等式和不等式)整合到一个函数中,通过引入拉格朗日乘数作为新的变量。 -
求解偏导数:对拉格朗日函数
分别对 , 和 求偏导数。这些偏导数应等于零(必要条件),形成一组方程。 -
求解方程组:解这些方程,找到所有变量的值。这些解可能表示原始问题的候选最优解。
拉格朗日函数的结果
-
得到的解:通过求解这些方程,可以得到原始优化问题的可能解。在某些情况下(尤其是凸优化问题),这些解是全局最优的。
-
拉格朗日乘数的含义:在解中,拉格朗日乘数
和 有特定的经济学或物理学含义。例如,它们可以表示约束条件对目标函数的“价格”或“成本”。 -
对偶问题:对于每个原始问题,都存在一个对偶问题。在某些条件下(如强对偶性成立时),原始问题和对偶问题的最优解相同。这允许通过解决对偶问题来间接解决原始问题,有时这更有效率。
总之,拉格朗日函数是处理约束优化问题的关键工具,它通过将约束条件融入目标函数来简化问题求解过程。这种方法在经济学、工程学、物理学和机器学习等领域都有广泛应用。
对偶函数
对偶函数在优化理论中是一个重要的概念,特别是在处理有约束的优化问题时。对偶函数与原始优化问题(被称为“原问题”)紧密相关,但它提供了一个不同的视角来分析和求解问题。
对偶函数的定义
假设我们有一个原始优化问题,目标是最小化目标函数
对偶函数
这里,
对偶函数的性质
-
凹性:无论原始问题的目标函数是凸的还是非凸的,对偶函数总是凹函数。
-
对偶间隙:对偶函数
的最大值提供了原始问题最小值的一个下界。这意味着对于所有可行的 和 , 小于或等于原始问题的最小值。 -
强对偶性和弱对偶性:
- 强对偶性:如果原始问题和对偶问题的最优值相等,即不存在对偶间隙,我们称这种情况为强对偶性。强对偶性通常在原始问题是凸的且满足某些技术条件(如Slater条件)时成立。
- 弱对偶性:在所有情况下,都至少存在弱对偶性,即对偶问题的最优值是原始问题最优值的下界。
-
解的关系:在强对偶性成立的情况下,通过解对偶问题可以得到原始问题的最优解。这在计算上往往更方便,尤其是当原始问题有很多约束时。
应用
对偶函数在优化理论中非常重要,尤其是在凸优化和支持向量机(SVM)等领域。对偶函数不仅提供了解决原始问题的一个不同途径,而且还揭示了问题的深层结构和性质。通过研究对偶函数,可以更好地理解和解决复杂的优化问题。
- Title: 深度学习相关数学知识点笔记
- Author: Cyria7
- Created at : 2024-03-19 14:25:01
- Updated at : 2024-03-19 14:52:35
- Link: https://cyria7.github.io/2024/03/19/nndlnotes/
- License: This work is licensed under CC BY-NC-SA 4.0.