正态分布证明(连续变量假设检验)

 2025-08-12 15:06:01  阅读 534  评论 0

摘要:正态分布简介正态分布(Normal Distribution)是统计学中一个非常重要的连续性分布,又称为高斯分布。我们在高中或者大学概率论中都学过,正态分布基本上能描述所有常见的事物和现象,如正常人的身高、体重等。同时,不少医学现象是服从正态分布或近似正态分布的,如同性别健康

正态分布简介

正态分布(Normal Distribution)是统计学中一个非常重要的连续性分布,又称为高斯分布。我们在高中或者大学概率论中都学过,正态分布基本上能描述所有常见的事物和现象,如正常人的身高、体重等。同时,不少医学现象是服从正态分布或近似正态分布的,如同性别健康成人的红细胞数、血红蛋白量、脉搏数等;医学实验中的随机误差,一般表现为正态分布;当然,也有的医学资料虽不呈正态分布,但可经过变量变换,转换为正态分布,由此在转换后可按正态分布规律来处理。

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

正态分布是一种概率分布,通常记作N(μ,σ);μ是遵从正态分布的随机变量的均值,σ是该随机变量的方差。从整体分布图上可看出,正态分布以均数 μ 为中心,左右对称,当x < μ ,f(x)随着x的增大而增大;当 x> μ 时,f(x)随着x的增大而减小;

正态分布有两个参数,即均数 μ 和标准差σ,其中μ是位置参数,当 恒定后, μ增大,则曲线沿横轴向右移动;反之,则向左移动。 σ是形状参数,当μ恒定时, σ越大,表示数据越分散,曲线就变“矮胖”, σ越小,表示数据集中,曲线越“瘦高”

正态分布的特征,归纳起来有两点:一是对称性,二是峰度。分布不对称的就是偏态,有正偏态和负偏态,峰度也有两种,一是尖峭峰,另一个是阔峰。

SPSS正态检验方法

在SPSS中有两种检验方法:

一是图示法,主要采用概率图 P-P图 和 Q-Q图,其中 P-P图中有以正态分布标准参考线,若散点在参考线周围,则符合正态分布。可通过SPSS中的“分析-描述统计—P-P图/Q-Q图”和“分析—描述统计—探索性分析”中实现

二是计算法,可用 K-S 检验和 S-W检验。可使用“分析—描述统计—探索性分析”和“分析—非参数检验—旧对话框—单样本K-S检验”。

图示法检验:P-P图

P-P图名为“Probability-Probability Plot”,指横坐标为某种理论分布的累计概率,而纵坐标为当前数据分类累计概率的数据图。

示例:打开数据,某市从城市工业园地区抽取15名7岁以下儿童测量其体内血铅含量,那么计算该工业园地区儿童的血铅含量是否符合正态分布。

1. 打开 分析—描述统计—P-P图

2. 参数说明:

变量:需分析的变量,可选择多个或一个检验分布:检验分布类型,默认是正态分布,在下拉列表中可供选择类型包括β分布、χ2分布、指数分布、拉普拉斯分布、Logistic分布、对数正态分布、帕累托分布等分布参数:定义所检验的分布参数,默认是“根据数据估算”,即根据样本数据估计总体参数。转换:对原始数据进行一定的变换后再进行相应的分布检验,默认是不进行任何变换。可供选择变化:自然对数变换、数值标准化、差分变化和季节差分变化。当选择差分和季节差分变换时,需填入差分变化的数值,季节性变化仅当数据为时间序列数据时可选。比例估算故事和分配给绑定的秩:较少选择,采取默认即可

3. 结果输出与说明

首先呈现的是个案处理摘要和估算的分布参数,给出了数据的样本数、正态分布的均值以及标准差。

对于P-P图可看出,数据点基本分布在对角线周围,表明期望累计概率和实际累计概率较为吻合,说明数据服从正态分布,从去趋势的整体P-P图来看,残差基本在y=0上下均匀分布,并且没有呈现一定的趋势,说明数据的正态分布比较好。

4. 语法:

PPLOT
  /VARIABLES=xqhl
  /NOLOG
  /NOSTANDARDIZE
  /TYPE=P-P
  /FRACTION=BLOM
  /TIES=MEAN
  /DIST=NORMAL.

图示法检验:Q-Q图

Q-Q图原理与P-P图非常类似,也用于比较变量的实际分布与其所假定的理论分布是否一致。但P-P图比较的是两者的累计概率分布,而Q-Q图则是根据变量的实际百分位数与理论的百分位数进行绘制的,相比之下,Q-Q的适用条件较宽松,结果也更稳健。

Q-Q图的对话框界面、操作方式和P-P图基本类似。

结果输出与说明首先呈现的是个案处理摘要和估算的分布参数,给出了数据的样本数、正态分布的均值以及标准差。

对于Q-Q图可看出,数据点基本分布在对角线周围,说明数据服从正态分布,从去趋势的整体P-P图来看,残差基本在y=0上下均匀分布,并且没有呈现一定的趋势,说明数据的正态分布比较好。

语法:
PPLOT
 /VARIABLES=xqhl
 /NOLOG
 /NOSTANDARDIZE
 /TYPE=Q-Q
 /FRACTION=BLOM
 /TIES=MEAN
 /DIST=NORMAL.

计算法:K-S检验:

方法一:通过 探索对话实现打开 分析—描述统计—探索,进入对话框

关于 探索 对话框中各个选择在前面讨论过,在此不再讨论。在对话框中选择 图—含检验的正态图,点击 确定

结果输出与说明:我们仅看 正态分布检验参数

对于K-S检验和S-W检验,当显著性(p)大于0.05时,提示数据符合正态分布。但:

---当样本量小时,很可能数据分布畸形,检验结果却不显著。

---当样本量大时,数据分布贴近正态,但结果显示p<0.05。

由此可看,两个检验结果容易受到样本量的影响。有学者建议:

---当样本量小于50时,使用S-W检验

---当样本大于50时,使用K-S检验

--- 在SPSS中,当样本量大于5000时,SPSS只输出K-S检验

从上表看,样本量只有15个样本,所以我们看S-W检验结果,p=0.263>0.05,说明原数据分布呈正态分布,同我们通过P-P图和Q-Q图得出的结论一致。

如果我们需要检验不同组别样本正态性,可在“探索”对话框中将分组变量选入“因子列表”,可分别检验 不同组别样本上的 正态性。

示例:判断不同医院在麻醉费用上的分布是否呈正态性?

语法:
EXAMINE VARIABLES=xqhl
 /PLOT BOXPLOT STEMLEAF
 /COMPARE GROUPS
 /STATISTICS DESCRIPTIVES
 /CINTERVAL 95
 /MISSING LISTWISE
 /NOTOTAL.
方法二:通过 非参数检验方法实现打开 分析—非参数检验—旧对话框—单样本K-S,进入对话框

参数说明:

--- 检验分布:有四种分布可以进行检验,默认为正态

--- 选项:提供统计(描述、四分位数等)等常用统计量以及对缺失值的处理方式。

输出结果与说明

由下表可知,K -S 检验=0.169,P =0.200 > 0.05,血铅含量符合正态分布。

语法
NPAR TESTS
 /K-S(NORMAL)=xqhl
 /MISSING ANALYSIS.

下次我们介绍 连续变量分布--单样本t检验。

版权声明:我们致力于保护作者版权,注重分享,被刊用文章【正态分布证明(连续变量假设检验)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;

原文链接:https://www.yxiso.com/zhishi/2079533.html

发表评论:

关于我们
院校搜的目标不仅是为用户提供数据和信息,更是成为每一位学子梦想实现的桥梁。我们相信,通过准确的信息与专业的指导,每一位学子都能找到属于自己的教育之路,迈向成功的未来。助力每一个梦想,实现更美好的未来!
联系方式
电话:
地址:广东省中山市
Email:beimuxi@protonmail.com

Copyright © 2022 院校搜 Inc. 保留所有权利。 Powered by BEIMUCMS 3.0.3

页面耗时0.0353秒, 内存占用1.93 MB, 访问数据库24次

陕ICP备14005772号-15