1.5 常见概率分布_深度学习500问：AI工程师面试宝典-QQ阅读玄幻男生网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.5　常见概率分布

伯努利分布（Bernoulli Distribution）是单个二值随机变量分布，它由参数φ控制，其中φ∈[0,1]，φ给出随机变量等于1的概率。主要性质有：

其期望和方差为：

Multinoulli分布也叫范畴分布、分类分布（Categorical Distribution），是伯努利分布从两个取值状态到多个取值状态的扩展，Multinoulli分布是单个k值随机分布，经常用来表示对象分类的分布，其中k是有限值。

伯努利分布适用于对离散型随机变量建模的场景。

高斯分布也叫正态分布（Normal Distribution），概率密度函数如下：

其中，μ和σ分别是均值和方差，中心峰值x的坐标由μ给出，峰的宽度受σ控制，最大点在x=μ处，拐点为x=μ±σ。

在正态分布中，±1σ、±2σ、±3σ下的概率分别是68.3%、95.5%、99.73%，这三个概率为常用的概率值，建议读者记住这三个数。

此外，令μ=0，σ=1，高斯分布即简化为标准正态分布：

对概率密度函数高效求值：

其中，，通过参数β∈（0，∞）来控制分布精度。

何时采用正态分布？实际上，如果缺乏分布规律的先验知识，不知选择何种形式，那么默认选择正态分布总是不会错的，理由如下。

（1）中心极限定理告诉我们，很多独立随机变量均近似服从正态分布，现实中很多复杂系统都可以被建模成正态分布的噪声，即使该系统可以被结构化分解。

（2）在具有相同方差的所有概率分布中，正态分布是不确定性最大的分布。换句话说，正态分布是对模型加入先验知识最少的分布。

正态分布可以推广到Rn空间，此时称为多维正态分布，其参数是一个正定对称矩阵∑，如下式所示：

对多维正态分布概率密度高效求值：

此处，β是一个精度矩阵。

在深度学习中，指数分布用来描述在x=0点处取得边界点的分布，指数分布定义如下：

指数分布用指示函数来使x取负值时的概率为零。

一个联系紧密的概率分布是Laplace分布（Laplace Distribution），它允许我们在任意一点μ处设置概率质量的峰值：

Dirac分布可保证概率分布中的所有质量都集中在一个点上。Dirac分布的Dirac δ函数（也称为单位脉冲函数）定义如下：

Dirac分布经常作为经验分布（Empirical Distribution）的一个组成部分出现：

其中，m个点是给定的数据集，经验分布将概率密度赋给了这些点。

当我们在训练集上训练模型时，可以认为从这个训练集上得到的经验分布指明了采样来源。

Dirac δ函数适用于连续型随机变量的经验分布。