服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

Python 实现 8 个概率分布公式及可视化!

日期: 来源:CDA数据分析师收集编辑:

来源丨网络


在本文中,我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。

概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。
现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。
“概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。”
了解数据的分布有助于更好地模拟我们周围的世界。它可以帮助我们确定各种结果的可能性,或估计事件的可变性。所有这些都使得了解不同的概率分布在数据科学和机器学习中非常有价值。
均匀分布
最直接的分布是均匀分布。均匀分布是一种概率分布,其中所有结果的可能性均等。例如,如果我们掷一个公平的骰子,落在任何数字上的概率是 1/6。这是一个离散的均匀分布。
但是并不是所有的均匀分布都是离散的——它们也可以是连续的。它们可以在指定范围内取任何实际值。a 和 b 之间连续均匀分布的概率密度函数 (PDF) 如下:
让我们看看如何在 Python 中对它们进行编码:
import numpy as np  
import matplotlib.pyplot as plt 
from scipy import stats 
 
# for continuous  
a = 0 
b = 50 
size = 5000 
 
X_continuous = np.linspace(a, b, size) 
continuous_uniform = stats.uniform(loc=a, scale=b) 
continuous_uniform_pdf = continuous_uniform.pdf(X_continuous) 
 
# for discrete 
X_discrete = np.arange(1, 7) 
discrete_uniform = stats.randint(1, 7) 
discrete_uniform_pmf = discrete_uniform.pmf(X_discrete)  
 
# plot both tables 
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5)) 
# discrete plot 
ax[0].bar(X_discrete, discrete_uniform_pmf) 
ax[0].set_xlabel("X") 
ax[0].set_ylabel("Probability") 
ax[0].set_title("Discrete Uniform Distribution") 
# continuous plot 
ax[1].plot(X_continuous, continuous_uniform_pdf) 
ax[1].set_xlabel("X") 
ax[1].set_ylabel("Probability") 
ax[1].set_title("Continuous Uniform Distribution") 
plt.show()

高斯分布

高斯分布可能是最常听到也熟悉的分布。它有几个名字:有人称它为钟形曲线,因为它的概率图看起来像一个钟形,有人称它为高斯分布,因为首先描述它的德国数学家卡尔·高斯命名,还有一些人称它为正态分布,因为早期的统计学家 注意到它一遍又一遍地再次发生。
正态分布的概率密度函数如下:

σ 是标准偏差,μ 是分布的平均值。要注意的是,在正态分布中,均值、众数和中位数都是相等的。
当我们绘制正态分布的随机变量时,曲线围绕均值对称——一半的值在中心的左侧,一半在中心的右侧。并且,曲线下的总面积为 1。
mu = 0 
variance = 1 
sigma = np.sqrt(variance) 
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100) 
 
plt.subplots(figsize=(8, 5)) 
plt.plot(x, stats.norm.pdf(x, mu, sigma)) 
plt.title("Normal Distribution") 
plt.show()
对于正态分布来说。经验规则告诉我们数据的百分比落在平均值的一定数量的标准偏差内。这些百分比是:
  • 68% 的数据落在平均值的一个标准差内。
  • 95% 的数据落在平均值的两个标准差内。
  • 99.7% 的数据落在平均值的三个标准差范围内。

对数正态分布

对数正态分布是对数呈正态分布的随机变量的连续概率分布。因此,如果随机变量 X 是对数正态分布的,则 Y = ln(X) 具有正态分布。
这是对数正态分布的 PDF:

对数正态分布的随机变量只取正实数值。因此,对数正态分布会创建右偏曲线。
让我们在 Python 中绘制它:
X = np.linspace(0, 6, 500) 
 
std = 1 
mean = 0 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
 
fig, ax = plt.subplots(figsize=(8, 5)) 
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1") 
ax.set_xticks(np.arange(min(X), max(X))) 
 
std = 0.5 
mean = 0 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=0.5") 
 
std = 1.5 
mean = 1 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
plt.plot(X, lognorm_distribution_pdf, label="μ=1, σ=1.5") 
 
plt.title("Lognormal Distribution") 
plt.legend() 
plt.show()

泊松分布

泊松分布以法国数学家西蒙·丹尼斯·泊松的名字命名。这是一个离散的概率分布,这意味着它计算具有有限结果的事件——换句话说,它是一个计数分布。因此,泊松分布用于显示事件在指定时期内可能发生的次数。
如果一个事件在时间上以固定的速率发生,那么及时观察到事件的数量(n)的概率可以用泊松分布来描述。例如,顾客可能以每分钟 3 次的平均速度到达咖啡馆。我们可以使用泊松分布来计算 9 个客户在 2 分钟内到达的概率。
下面是概率质量函数公式:
λ 是一个时间单位的事件率——在我们的例子中,它是 3。k 是出现的次数——在我们的例子中,它是 9。这里可以使用 Scipy 来完成概率的计算。
from scipy import stats 

print(stats.poisson.pmf(k=9, mu=3)) 
0.002700503931560479
泊松分布的曲线类似于正态分布,λ 表示峰值。
X = stats.poisson.rvs(mu=3, size=500) 
 
plt.subplots(figsize=(8, 5)) 
plt.hist(X, density=True, edgecolor="black") 
plt.title("Poisson Distribution") 
plt.show()

指数分布

指数分布是泊松点过程中事件之间时间的概率分布。指数分布的概率密度函数如下:

λ 是速率参数,x 是随机变量。
X = np.linspace(0, 5, 5000) 
 
exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1) 
 
plt.subplots(figsize=(8,5)) 
plt.plot(X, exponetial_distribtuion) 
plt.title("Exponential Distribution") 
plt.show()

二项分布

可以将二项分布视为实验中成功或失败的概率。有些人也可能将其描述为抛硬币概率。
参数为 n 和 p 的二项式分布是在 n 个独立实验序列中成功次数的离散概率分布,每个实验都问一个是 - 否问题,每个实验都有自己的布尔值结果:成功或失败。
本质上,二项分布测量两个事件的概率。一个事件发生的概率为 p,另一事件发生的概率为 1-p。
这是二项分布的公式:
  • P = 二项分布概率
  • = 组合数
  • x = n次试验中特定结果的次数
  • p = 单次实验中,成功的概率
  • q = 单次实验中,失败的概率
  • n = 实验的次数
可视化代码如下:
X = np.random.binomial(n=1, p=0.5, size=1000) 
 
plt.subplots(figsize=(8, 5)) 
plt.hist(X) 
plt.title("Binomial Distribution") 
plt.show()

学生 t 分布

学生 t 分布(或简称 t 分布)是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。它是由英国统计学家威廉·西利·戈塞特(William Sealy Gosset)以笔名“student”开发的。
PDF如下:

n 是称为“自由度”的参数,有时可以看到它被称为“d.o.f.” 对于较高的 n 值,t 分布更接近正态分布。
import seaborn as sns 
from scipy import stats 
 
X1 = stats.t.rvs(df=1, size=4) 
X2 = stats.t.rvs(df=3, size=4) 
X3 = stats.t.rvs(df=9, size=4) 
 
plt.subplots(figsize=(8,5)) 
sns.kdeplot(X1, label = "1 d.o.f") 
sns.kdeplot(X2, label = "3 d.o.f") 
sns.kdeplot(X3, label = "6 d.o.f") 
plt.title("Student's t distribution") 
plt.legend() 
plt.show()

卡方分布

卡方分布是伽马分布的一个特例;对于 k 个自由度,卡方分布是一些独立的标准正态随机变量的 k 的平方和。
PDF如下:

这是一种流行的概率分布,常用于假设检验和置信区间的构建。
在 Python 中绘制一些示例图:
X = np.arange(0, 6, 0.25) 
 
plt.subplots(figsize=(8, 5)) 
plt.plot(X, stats.chi2.pdf(X, df=1), label="1 d.o.f") 
plt.plot(X, stats.chi2.pdf(X, df=2), label="2 d.o.f") 
plt.plot(X, stats.chi2.pdf(X, df=3), label="3 d.o.f") 
plt.title("Chi-squared Distribution") 
plt.legend() 
plt.show()
掌握统计学和概率对于数据科学至关重要。在本文展示了一些常见且常用的分布,希望对你有所帮助。

来源:Deephub Imba


推荐阅读

相关阅读

  • 每日速递 | 天赐材料2022年收入超224亿

  • 会议倒计时9天2023复合集流体产业峰会——跨越从0到1 开启变革时代 主办单位:高工锂电、高工产业研究院(GGII) 总冠名:诺德股份 峰会地点:深圳机场凯悦酒店 峰会时间:2023年3
  • 每日速递 | 亿纬锂能2022年营收同比上升115%

  • 会议倒计时8天2023复合集流体产业峰会——跨越从0到1 开启变革时代 主办单位:高工锂电、高工产业研究院(GGII) 总冠名:诺德股份 峰会地点:深圳机场凯悦酒店 峰会时间:2023年3
  • 概率论、遍历性与科学下注

  • 作者:Jimmy Cui来源:BEDROCK(ID:brpartners)赌场模型假如你有一百万,现在有一个投资机会D,有50%概率赚60%,也有50%的概率亏损40%,你要投资吗?(不考虑破产、清仓等任何限制条件)答案当然
  • 雪+雨夹雪!还有降温10℃!河北未来三天…

  • 注意!雨雪闪现!明后两天天气将会插播一段小插曲像明天白天邢台南部、邯郸有小雨或零星小雨明夜到17日张家口南部、保定西北部有小雪或零星雨夹雪衡水东部、邢台、邯郸阴有小雨
  • 突然宣布:取消免费!

  • 3月14日,腾讯会议官方发布公告称,将从2023年4月4日起调整免费版和会员版的多项服务功能,涉及会议规模、时长和会员价格等方面。其中,腾讯会议免费用户“300人不限时会议”使用权
  • 今晚24时起,停止!

  • 记者日前从石家庄市城管局获悉,按照《石家庄市供热用热条例》相关规定,石家庄市将于3月15日24时停止供暖,提醒广大市民注意做好停暖后的过渡。根据我省各地之前发布的公开信息
  • 肖某(男,58岁),被立案

  • 3月15日,记者从贵州省贵阳市公安局交警支队获悉,13日,贵阳市发生一起因酒后驾车引发的道路交通事故。一男子酒后驾驶奔驰轿车与出租车发生剐蹭,在现场查处过程中,该男子自称公安
  • 3月,到冰城来看雪

  • 阳春3月,大雪纷飞仿佛又回到了冬季14日晚至15日哈尔滨市持续降雪雪中的冰城银装素裹如同一个白色的童话世界在各景区市民和游客们在雪中拍照、玩耍感受降雪带来的快乐本文版

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • “中国的崛起非常强劲”

  • 西班牙《国家报》网站3月11日发表安德烈亚·里西的文章,题为《大国之间正在进行一场激烈的技术竞赛:这就是它们之间的力量对比》。全文摘编如下:世界大国正在一场日益激烈的技
  • 澳前总理猛批:“这样的想法是垃圾!垃圾!”

  • 综合美联社、法新社和彭博新闻社3月15日报道,澳大利亚前总理保罗·基廷15日对他的国家从美国购买核动力潜艇的计划发起猛烈抨击,称“这肯定是有史以来最糟糕的协议”。据报道,
  • 美国数千航班被取消

  • 据美国有线电视新闻网网站报道,令美国东北地区部分区域积雪达一英尺、导致数万用户断电的风暴当地时间15日将在新英格兰地区持续,预计它将带来有限的降雪,但强风在离开沿海地区
  • Python 实现 8 个概率分布公式及可视化!

  • 来源丨网络在本文中,我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收