医学统计学与软件实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 频数分布与正态分布

一、频数分布表与频数分布图

频数分布表,又称频数表,是对样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。使用CHISS软件可以方便地由原始数据编制出形如表4-1的频数分布表。

(一)频数分布表的编制

例4-1

某市随机抽取正常成年男子120名,其红细胞计数值(1012/L)如下,试编制频数表并绘制频数直方图。

5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84

4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.14 5.46 5.66 4.20

4.21 3.73 5.17 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21

4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00 4.05

4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97

4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22

4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53

4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51

4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31 3.77

4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69

1.制表步骤

(1)找出观察值中的最大值、最小值,求极差:

本例中最小值为3.29,最大值为6.18,他们之间的差值称为极差,用 R表示。R = 6.18 − 3.29 = 2.89。

(2)确定组段、组距:

根据样本含量的大小,确定“组段”数。编制频数表的目的是简化资料,显示数据的分布规律,组段数过多则过于繁琐,过少则难以反映出数据的分布特征,一般可设8~13个组段。

各组段的起点和终点分别称为组段的下限和上限。相邻两组段的下限之差称为组距。组距可以相等,也可以不等。实际应用时一般采用等距分组,较大样本时常用(极差/10)取整作为组距,以便于汇总和计算。本例极差的1/10为0.289,取整为0.3,即组距 = 0.3。

显然,第一组必须包含最小值,最后一组应包含最大值。常取接近但小于最小值的、较为整齐的数值作为第一组的下限。本例,最小值为3.29,故取3.20作为第一组段的下限。值得注意的是,在编制频数表时,各组段不包括该组段的上限值。

(3)列出频数表:

统计各组段内的观察个体数即频数,将各组段及相应的频数列成表4-1的形式。

表4-1 某市120名正常成年男子红细胞计数的频数分布

2.用CHISS软件作频数表

此数据库已建立在文件夹中,文件名为:b4-1.dbf。

(1)进入数据模块:

打开数据库。点击“数据”→“文件”→打开“数据库表”,找到文件名“b4-1.dbf”→“确认”。

(2)进入统计模块:

进行统计计算。点击“统计”→“统计描述”→“频数表”。光标选中变量:红细胞计数。分组数为:10,第一组下限为:3.2,组距为:0.3。→“编制频数表”→“结果”→“完成”。

(3)进入结果模块:

查看结果,点击“结果”,见表4-2及图4-1。

表4-2 红细胞计数频数表

图4-1 红细胞计数频数分布图

3.SAS软件制作频率表和频率图

图4-2 SAS软件中红细胞计数频数分布表

频率分布直方图如图4-3:

图4-3 SAS软件中红细胞计数频数分布图

4.Stata软件制作频率表和频率图

*导入样例b4-1的csv文件

import delimited E:\example\b4-1.csv,encoding(GBK)clear

*制作频数表,如图4-4

gen group = int((红细胞计数 − 3.2)/0.3)*0.3 + 3.2

tab group

*绘制频数直方图,如图4-5。

hist 红细胞计数

图4-4 Stata软件中红细胞计数频数分布表

图4-5 Stata软件中红细胞计数频数分布图

5.SPSS软件制作频数表

此数据库已建立在文件夹中,文件名为:b4-1.sav。

首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b4-1.sav”,点击“打开”。第二,点击“转换”→“计算变量”,弹出“计算变量”对话框,如图4-6所示,目标变量设为“分组”,函数组选择“算数”,双击“TRUNC”,在数字表达式输入“TRUNC((红细胞计数 − 3.20)/ 0.3) + 1”,点击“确定”。

图4-6 计算变量对话框

第三,点击“分析”→“描述统计”→“频率”,弹出“频率”对话框,如图4-7所示,将“分组”填入变量中,勾选“显示频率表”,点击“图表”,图表类型选择“直方图”,点击“继续”,选择“确定”。

频率分布表和频率分布图结果显示如图4-8及图4-9所示。

图4-7 频率对话框

图4-8 SPSS软件中红细胞计数频数表

图4-9 SPSS软件中红细胞计数频数分布图

(二)频数分布表的特征

由频数表可以看出频数分布的两个重要特征,即集中趋势和离散趋势。由表4-1可以看出,正常成年男子红细胞多集中在3.8~5.6(1012/L),占总人数的89.17%,为集中趋势。从中等红细胞计数到较大或较小方向,频数逐渐减少,为离散趋势。

(三)频数分布的类型

根据集中趋势和离散趋势这两个特征可以进一步确定频数分布的类型。总的来说,频数分布可以分为对称分布和偏态分布两种类型。所谓对称分布是指集中位置在频数分布的中间,左右两侧频数大致对称,如表4-1第①、②列所示。若将其绘制成直方图(图4-1)则看得更清楚。所谓偏态分布是指集中趋势偏于一侧,频数分布左右不对称。如以儿童发病为主的传染病,患者的年龄分布,集中趋势偏向年龄小的一侧;而慢性病的患者年龄分布,集中趋势偏向年龄大的一侧。前者称为正偏态分布,后者称为负偏态分布。

统计分析描述时,应针对资料的不同分布类型选用适当的统计分析方法。

二、正态分布

(一)正态分布和标准正态分布的定义

正态分布是由法国数学家狄莫弗(A.de.Moivre,1667—1754年)于1733年首先提出,至19世纪初,德国数学家高斯(C. F. Gauss,1777—1855年)与法国数学家拉普拉斯(P. S.de Laplace,1749—1827年)分别加以发展,正态分布又称高斯分布。许多实际问题中,指标取中等大小数值的概率大,取较小或较大数值的概率小,而且关于均值是对称的。如某地区成年男子的身高、体重、胸围、腿长等都服从正态分布规律。一般地,若影响某一数量指标的随机因素很多,而每个因素所起的作用不太大,则这个指标的取值近似服从正态分布。正态分布是一种重要的连续型分布,是许多统计方法的理论基础,是二项分布、Poisson分布、t分布、χ2分布、F分布等在特定条件下的近似分布;另一方面,有一些重要分布(如χ2分布、t分布、F分布及其非中心分布)是由正态分布派生出来的。

正态分布的概率密度函数,即正态分布曲线的方程为

式中μ为总体均数,σ为总体标准差。当μσ已知时即可绘出正态分布曲线的图形。正态分布是以均数为中心,两侧对称的钟型分布,如图4-10所示。

如果进行变量变换,,则变量μ = 0,σ = 1,正态分布曲线的中心位置就由μ移到0,正态分布即可转化为标准正态分布,如图4-11。标准正态分布也称为u分布,u称为标准正态变量或标准正态离差。标准正态分布的概率密度函数为:

一般用N(μ,σ2)表示均数为μ,方差为σ2的正态分布,标准正态分布可用N(0,1)表示。

图4-10 正态曲线

图4-11 标准正态分布曲线

(二)正态分布的性质

1.正态分布曲线在横轴上方均数处(μ)达到最高;标准正态分布曲线在u = 0时,φu)达到最大值。

2.正态分布曲线以均数为中心,左右两侧对称。

3.正态分布曲线以横轴为其渐近线。

4.正态分布有两个参数,即均数μ和标准差σμ是位置参数,当σ恒定时,μ越大,则曲线沿横轴越向右移动,μ越小,则曲线沿横轴越向左移动;σ是变异度参数,当μ恒定时,σ越大,表示数据越分散,σ越小,表示数据越密集。

5.正态分布曲线下的面积分布有一定的规律。可根据正态分布曲线下某个区间的面积,来估计变量值落在该区间的概率(概率分布),或估计该区间内的例数占总例数的百分数(频率分布)。正态分布曲线下区间的面积,可以通过对正态变量X的概率密度函数fx)的广义积分来求得,称为X的分布函数,以FX)表示,它反映了正态分布曲线下,自 − ∞到X的左侧累积面积。

正态分布曲线下横轴上的总面积为100%或1。

μσX已知时,经过变化,公式(4-3)可以转化为:

公式(4-4)为标准正态变量u的概率分布函数,Φu)反映了标准正态分布曲线下,自 −∞到 u 的左侧累积面积。可求得 Φ(− 1.65) = 0.05,Φ(− 1.96) = 0.025,Φ(− 2.58) =0.005。

标准正态分布曲线下对称于0的区间其面积相等。例如,区间(−∞, −u)和区间(u, + ∞)的面积相等,于是有等式 Φu) = 1 − Φ(− u)。

正态曲线下面积的计算公式为:Pu1 < U < u2) = Φu2) − Φu1)。例如:

P(− 1.96 < U < 1.96) = [1 − Φ(− 1.96)] − Φ(− 1.96) = (1 − 0.025 0) − 0.025 0 = 0.95

表示标准正态分布曲线下±1.96以外的双侧尾部面积为0.05,即变量值落在[ − 1.96,1.96]区间外的概率是5%。1.96称为双侧尾部面积为0.05的临界值,记为u0.05u0.05 = 1.96。

为了计算方便,统计学家已按公式编制成表,标准正态分布曲线下的面积如表4-3所示。

表4-3 标准正态分布曲线下的面积与双侧临界值