来自 Medium & analyticsvidhya
机器之心合辑
机器之心编辑部
本文全面梳理了从最基本的概率论到各种概率分布的基本概率知识和概念。 这些概念可能有助于我们理解机器学习或开阔我们的视野。 这些概念是数据科学的核心,经常出现在各种主题中。 重温基础知识总是有益的,这样我们就可以发现以前不了解的新知识。
介绍
在本系列文章中,我想探索统计学中的一些入门概念,这些概念可能有助于我们理解机器学习或开阔视野。 这些概念是数据科学的核心,经常出现在各种主题中。 复习一下基础知识总是好的,这样我们就可以发现以前不了解的新事物,所以我们开始吧。
第一部分将介绍概率论的基础知识。
可能性
我们已经有了非常强大的数学工具,为什么还要学习概率论呢? 我们使用微积分来处理变化无穷小的函数,并计算它们的变化。 我们使用代数来求解方程,我们还有许多其他数学领域可以帮助我们解决几乎所有可以想象到的难题。
困难在于我们都生活在一个混乱的世界中,大多数时候事物都无法准确测量。 当我们研究现实世界的过程时,我们想要了解影响实验结果的许多随机事件。 不确定性无处不在,我们必须驯服它以满足我们的需要。 只有这样,概率论和统计学才能发挥作用。
这些学科如今是人工智能、粒子物理学、社会科学、生物信息学和日常生活的中心。
如果我们要谈论统计,最好先定义什么是概率。 事实上,这个问题没有绝对的答案。 接下来我们详细阐述概率论的各个观点。
频率
想象一下,我们有一枚硬币,想要验证抛掷后正面和反面出现的频率是否相同。 我们如何解决这个问题? 让我们尝试进行一些实验,如果硬币正面朝上,我们记录 1,如果反面朝上,则记录 0。 重复抛1000次,记录0和1的个数。 在我们进行了一些繁琐的计时实验之后,我们得到了这些结果:600 个正面 (1) 和 400 个反面 (0)。 如果我们计算过去正面和反面的频率,我们将分别得到 60% 和 40%。 这些频率可以解释为硬币出现正面或反面的概率。 这称为频繁概率。
条件概率
通常,我们想知道当其他事件也发生时某些事件发生的概率。 我们将事件 B 发生时事件 A 发生的条件概率写为 P(A|B)。 以下面的雨为例:
从这个欧拉图中,我们可以看出P(Rain|Thunder) = 1:当我们看到打雷时,总会下雨(当然,这不完全正确,但我们保证在这个例子中是正确的)。
什么是 P(雨 | 晴)? 从直觉上看,这个概率很小,但是我们怎样才能在数学上做出这个准确的计算呢? 条件概率定义为:
换句话说,我们将 Rain 和 Sunny 的概率除以 Sunny 的概率。
相关事件与独立事件
如果一个事件的概率不会以任何方式影响另一个事件,则称该事件是独立的。 考虑掷骰子并连续两次获得 2 的概率。 这些事件是独立的,我们可以这样表达
但是为什么这个公式有效呢? 首先,我们将第一次和第二次投掷的事件重命名为 A 和 B 以消除语义影响,然后我们明确地将我们看到的两次投掷的联合概率重写为概率的单独乘积:
现在将 P(A) 乘以 P(B)(不变,可以取消)并重新审视条件概率的定义:
如果我们从右到左阅读上面的等式,我们会发现 P(A | B) = P(A)。 这意味着事件 A 独立于事件 B! P(B)也是如此,这就是独立事件解释。
贝叶斯概率论
贝叶斯可以用作理解概率的替代方法。 频率派方法假设存在我们正在寻找的模型参数的最佳特定组合。 另一方面,贝叶斯以概率方式处理参数并将它们视为随机变量。 在贝叶斯统计中,每个参数都有自己的概率分布,这告诉我们现有数据有很多可能的参数。数学上可以写成
这一切都始于一个简单的定理,该定理使我们能够根据先验知识计算条件概率:
贝叶斯定理尽管简单概率的定义,但具有巨大的价值、广泛的应用,甚至是贝叶斯统计的一个特殊分支。 有一篇关于贝叶斯定理的非常棒的博文,如果您对贝叶斯推导感兴趣——它并不难。
抽样与统计
假设我们正在研究人类的身高分布,并且急于发表一篇激动人心的科学论文。 我们在街上测量了一些陌生人的身高,所以我们的测量是独立的。 我们从真实人群中随机选择数据子集的过程称为抽样。 统计是用来总结采样值数据规律性的函数。 您可能已经看到的统计数据是样本均值:
另一个例子是样本方差:
该公式为您提供了所有数据点偏离平均值的程度。
分散式
什么是概率分布? 这是一条以数学函数的形式告诉我们某些实验中不同可能结果的概率的定律。 对于每个函数,分布可能有一些参数来调整其行为。
当我们计算抛硬币事件的相对频率时,我们实际上是在计算所谓的经验概率分布。 事实证明,世界上许多不确定的过程都可以用概率分布来表示。 例如,我们的投币结果是伯努利分布,如果我们想计算一枚投币 n 次出现正面朝上的概率,我们可以使用二项分布。
引入一个类似于概率环境中变量的概念——随机变量就方便多了。 每个随机变量都有一定的分布。 随机变量默认用大写字母表示,我们可以使用~符号为变量分配分布。
上式表示随机变量X服从伯努利分布,成功率(抬头)为0.6。
连续和离散概率分布
概率分布可分为两种类型: 离散分布用于处理具有有限值的随机变量,如抛硬币和伯努利分布的情况。 离散分布由所谓的概率质量函数 (PMF) 定义,连续分布用于处理具有无限多个值的连续(理论上)随机变量。 想想用声音传感器测量的速度和加速度。 连续分布由概率密度函数 (PDF) 定义。
这两种分布类型在数学上的处理方式不同:通常连续分布使用积分 ∫ 而离散分布使用总和 Σ。 以期望值为例:
下面我们将详细介绍各种常见的概率分布类型。 如上所述,概率分布可以分为离散随机变量分布和连续随机变量分布。 常见的离散型随机变量分布有伯努利分布、二项分布、泊松分布等,而常见的连续型随机变量分布有均匀分布、指数分布、正态分布等。
常见数据类型
在讲解各种分布之前,我们先了解一下常见的数据类型,分为离散型和连续型。
离散数据:数据只能取特定的值。 例如,当您掷骰子时,可能的结果只有 1、2、3、4、5、6 而不是 1.5 或 2.45。
连续数据:数据可以取给定范围内的任意值,可以是有限的也可以是无限的,例如女孩的体重或身高,或者道路的长度。 一个女孩的体重可以达到 54 公斤、54.5 公斤或 54.5436 公斤。
分布类型
伯努利分布
离散随机变量的最简单分布是伯努利分布,这是我们的起点。
伯努利分布只有两种可能的结果,表示为 1(成功)和 0(失败),并且只有一次伯努利试验。 设定一个服从伯努利分布的随机变量X,取值为1表示成功的概率为p,取值为0表示失败的概率为q或1-p。
若随机变量X服从伯努利分布,则概率函数为:
成功和失败的概率不一定相等。 比如我和一个运动员打架,他赢的几率应该更大。 这时候我成功的概率是0.15,而失败的概率是0.85。
下图显示了我们战斗的伯努利分布。
正如您在上图中看到的,我的成功概率 = 0.15,失败概率 = 0.85。 期望值是指概率分布的平均值。 对于一个随机变量X,对应的期望值为:E(X) = 1*p + 0*(1-p) = p,方差为V(X) = E(X^2) – [E( X)]^2 = p – p^2 = p(1-p)
其实伯努利分布的例子有很多,比如明天是晴天还是下雨天,本场比赛某队是赢还是输等等。
二项分布
现在回到抛硬币的情况,当第一次抛完之后,我们可以再抛一次,也就是有多次伯努利试验。 第一次积极并不代表以后一定会积极。 然后让我们有一个随机变量 X 代表我们翻转的正面数量。 X可能取什么值? 可以是任何非负整数,不超过抛硬币的总数。
如果有一组相同的随机事件,即一组伯努利试验,在上面的例子中,连续抛多次硬币。 那么一个随机事件发生的次数,即概率,服从二项分布,也称为多重伯努利分布。
任何一个测试都是相互独立的,之前的测试不会影响当前测试的结果。 将具有相同结果概率的两个试验重复 n 次的试验称为多重伯努利试验。 二项分布的参数为 n 和 p,其中 n 是试验总数,p 是每次试验的成功概率。
根据上述,二项分布的性质是:
1. 每次测试都是独立的;
2. 只有两种可能的结果;
3、进行n次相同的实验;
4. 成功的概率在所有试验中都是一样的,失败的概率也是一样的。
二项分布的数学表达式为:
具有不等成功概率和失败概率的二项分布如下所示:
成功概率和失败概率相等的二项分布如下所示:
二项分布的均值表示为 µ = n*p,而方差可以表示为 Var(X) = n*p*q。
泊松分布
如果您在呼叫中心工作,您一天会接到多少个电话? 尽可能多次! 可以使用泊松分布对呼叫中心一天接到多少电话进行建模。 这里有一些例子:
1.医院一天接到的急救电话数量;
2.当地一天内接到的盗窃事件报告数量;
3、一小时内到店人数;
4. 特定城市报告的自杀人数;
5. 每页印刷错误的数量。
现在您可以用相同的方式构建许多其他示例。 泊松分布适用于事件发生的时间和地点随机分布的情况,我们只对事件发生的次数感兴趣。 泊松分布的主要特点如下:
1.任何成功的事件不能影响其他成功的事件;
2. 短时间间隔成功的概率必须等于长时间间隔成功的概率;
3.当时间间隔趋于无穷小时,一个时间间隔内成功的概率趋近于零。
泊松分布中定义的符号是:
假设X是泊松随机变量,则X的概率分布称为泊松分布。 用µ表示时间间隔t内平均发生的事件数,则µ=λ*t;
X 的概率分布函数为:
泊松分布的概率分布如下图所示,其中µ是泊松分布的参数:
下图显示了分布曲线如何随着均值的增加而变化:
如上所示,随着平均值的增加,曲线向右移动。 泊松分布的均值和方差为:
平均值:E(X) = µ
方差:Var(X) = µ
平均分配
假设我们有相同的概率在a到b的一条线段上等距离地选择一个区间,那么这个概率是均匀分布在整个区间[a,b]上的,概率密度函数不会随着变量的变化而变化. 均匀分布不同于伯努利分布。 随机变量的取值是等概率的,所以概率密度可以表示为区间长度的二分之一。 如果我们取随机变量可能取值的一半,那么它出现的概率就是1/2。
假设随机变量X服从均匀分布,则概率密度函数为:
均匀分布曲线如下图,其中概率密度曲线下的面积为随机变量出现的概率:
我们可以看到,均匀分布的概率分布图呈现为矩形,这也是均匀分布又称为矩形分布的原因。 在均匀分布中,a和b都是参数,即随机变量的取值范围。
服从均匀分布的随机变量 X 也具有均值和方差。 它的均值是E(X) = (a+b)/2,它的方差是V(X) = (ba)^2/12
标准均匀分布的密度函数的参数a取值0,b取值1,所以标准均匀分布的概率密度可以表示为:
指标分布
现在我们再考虑呼叫中心的情况,呼叫间隔的分布呢? 这种分布很可能是指数分布,因为指数分布可以对调用之间的时间间隔进行建模。 其他示例可能包括地铁到达时间和空调设备循环的建模。
在深度学习中,我们经常需要一个在 x=0 处有一个尖点的分布。 为此,我们可以使用指数分布:
指数分布使用了一个指示函数(indicator function)1x≥0,这样当x取负值时,概率为零。
其中 λ >0 是概率密度函数的一个参数。 一个随机变量X服从指数分布,那么变量的均值可以表示为E(X) = 1/λ,方差可以表示为Var(X) = (1/λ)^2。 如下图所示,λ越大,指数分布的曲线下降得越多,λ越小,曲线越平坦。 如下所示:
以下是从指数分布函数导出的简单表达式:
P{X≤x} = 1 – exp(-λx),对应小于x的密度函数曲线下面积。
P{X>x} = exp(-λx),表示概率密度函数曲线下大于x的面积。
P{x1
正态分布(高斯分布)
实数上最常用的分布是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。 由于分布的普适性概率的定义,特别是中心极限定理的推广,一般可以将很多小的随机变量拟合成一个正态分布。 正态分布主要有以下特点:
1. 所有变量服从相同的均值、方差和分布模式。
2.分布曲线呈钟形,沿x=μ对称。
3.曲线下面积之和为1。
4. 分布的左半部分的精确值等于右半部分。
正态分布与伯努利分布有很大区别,但当伯努利试验次数趋近于无穷大时,它们的分布函数基本相等。
若随机变量X服从正态分布,则X的概率密度可表示为:
随机变量X的均值可以表示为E(X) = µ,方差可以表示为Var(X) = σ^2。 均值 µ 和标准差 σ 是高斯分布的参数。
随机变量X服从正态分布N(µ, σ),可以表示为:
标准正态分布可以定义为均值为0、方差为1的分布函数。标准正态分布的概率密度函数和分布图如下所示:
分布之间的关系
伯努利分布与二项分布的关系
1、二项分布是伯努利分布单次试验的特例,即词伯努利试验;
2.二项分布和伯努利分布的每次试验只有两种可能的结果;
3、二项分布 每个实验都是相互独立的,每个实验都可以看作是一个伯努利分布。
泊松分布与二项分布关系
泊松分布是二项分布的极限形式,如果:
1. 试验次数很大或接近无穷大,即n → ∞;
2. 每次试验的成功概率相同且趋近于零,即p → 0;
3. np = λ 是有限值。
正态分布与二项分布的关系 & 正态分布与泊松分布的关系
如果满足以下条件,则正态分布是二项分布的限制形式:
1. 试验次数很大或接近无穷大,即n → ∞;
2. p 和 q 都不是无穷小。
当参数λ→∞时,正态分布是泊松分布的极限形式。
指数分布与泊松分布的关系
若随机事件的时间间隔服从参数为λ的指数分布,则时间段t内发生的事件总数服从泊松分布,对应的参数为λt。
测试
读者可以通过完成以下简单测试来检查他们对上述概率分布的理解:
1、服从标准正态分布的随机变量的计算公式为:
A。 (x+µ) / σ
b. (x-µ) / σ
C。 (x-σ) / µ
2、在伯努利分布中,标准差的计算公式为:
A。 p (1 – p)
b. SQRT(p(p – 1))
C。 SQRT(p(1-p))
3. 对于正态分布,均值递增意味着:
A。 曲线向左移动
b. 曲线向右移动
C。 曲线变平了
4、假设电池的生命周期服从λ=0.05的指数分布,则电池最终使用寿命在10小时到15小时之间的概率为:
a.0.1341
b.0.1540
c.0.0079
结语
在本文中,我们将从最基本的随机事件及其概念出发,讨论对概率的理解。 然后我们讨论了最基本的概率计算方法和概念,例如条件概率和贝叶斯概率等。本文还讨论了随机变量的独立性和条件独立性。 此外,本文详细介绍了概率分布,包括离散随机变量的分布和连续随机变量的分布。 本文主要讨论基本的概率定理和概念。 其实这些内容在我们大学的概率论和数理统计课程中基本都有详细的讲解。 对于机器学习,了解概率和统计知识对于理解机器学习模型非常重要。 在此基础上,我们可以进一步理解结构化概率等新概念。
原文链接: