假设检验之T检验

转载 2019-06-17 12:10  阅读 307 次 评论 0 条

假设检验也叫显著性检验,是以小概率反证法的逻辑推理,判断假设是否成立的统计方法,它首先假设样本对应的总体参数(或分布)与某个已知总体参数(或分布)相同,然后根据统计量的分布规律来分析样本数据,利用样本信息判断是否支持这种假设,并对检验假设做出取舍抉择,做出的结论是概率性的,不是绝对的肯定或否定。

1、T检验的概念

T检验是用于两个样本(或样本与群体)平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。

T检验的适用条件为样本分布符合正态分布

T检验的应用条件:

  • 当样本例数较小时,要求样本取自正态总体;
  • 做两样本均数比较时,还要求两样本的总体方差相等。

T检验的用途:(1)样本均数与群体均数的比较;(2)两样本均数的比较。

2、假设检验的步骤

假设检验可以分为三步:(1)建立检验假设和确定检验水准;(2)选定检验方法和计算检验统计量;(3)确定P值和做出推断结论。

2.1 建立检验假设和确定检验水准

检验假设是针对总体特征而言,包括相互对立的两个方面,即两种假设:一种是无效假设或称原假设、零假设,符号为\(\pmb{H}_0\),它是要否定的假设;另一种是备择假设,记为\(\pmb{H}_1\),它是\(\pmb{H}_0\)的对立面。二者是从反证法的思想提出的, \(\pmb{H}_1\)和\(\pmb{H}_0\)是相互联系、又相互对立的假设。

假设检验还需根据不同研究目的事先设置是否拒绝原假设的判断标准,即检验水准。检验水准也称显著性水准,它指无效假设\(\pmb{H}_0\)为真,但被错误地拒绝的一个小概率值,一般取检验水准α =0.05。

单侧检验与双侧检验

• 在进行t检验时,如果其目的在于检验两个总体均数是否相等,即为双侧检验。 例如检验某种新降压药与常用降压药效力是否相同?就是说,新药效力可能比旧药好,也可能比旧药差,或者力相同,都有可能。
• 如果我们已知新药效力不可能低于旧药效力,例如磺胺药+磺胺增效剂从理论上推知其效果不可能低于单用磺胺药,这时,无效假设为\(\pmb{H}_0\):μ1=μ2, 备择假设为\(\pmb{H}_1\): μ1>μ2 , 统计上称为单侧检验。

2.2 选定检验方法和计算检验统计量

要根据研究设计的类型和统计推断的目的选用不同的检验方法。如成组设计的两样本均数的比较用t检验,多个样本均数的比较用F检验。
检验统计量是用于抉择是否拒绝\(\pmb{H}_0\)的统计量(因此在我们确定检验假设\(\pmb{H}_0\),\(\pmb{H}_1\)时,检验方法和检验统计量就已经确定了),其统计分布在统计推断中是至关重要的,不同的检验方法要用不同的方式计算现有样本的检验统计量值。

2.3 确定P值和做出推断结论

这里的P值是指由\(\pmb{H}_0\)成立时的检验统计量出现在由样本计算出来的检验统计量的末端或更末端处的概率值。

当P≤ α时,结论为按所取检验水准拒绝\(\pmb{H}_0\),接受\(\pmb{H}_1\),这样做出结论的理由是:在\(\pmb{H}_0\)成立的条件下,出现等于及大于现有检验统计量值的概率P≤ α ,是小概率事件,这在一次抽样中是不大可能发生的,即现有样本信息不支持\(\pmb{H}_0\)因而拒绝它;若P>α,即样本信息支持\(\pmb{H}_0\),就没有理由拒绝它,此时只好接受它。

假设检验的两类错误

Ⅰ型错误,第一类错误、假阳性错误,就是在假设检验作推断结论时,拒绝了实际上是正确的原假设\(\pmb{H}_0\),其概率用α表示。(拒绝正确)
Ⅰ型错误是针对原假设而言的, α就是事先规定 的 允 许 犯 Ⅰ 型 错 误 的 概 率 值 , 如 规 定α=0.05,意味着在某特定总体抽样, 100次拒绝\(\pmb{H}_0\)的假设检验中,最多有5次允许发生第一类错误。与此相应,推断正确的可能性为1-α, 1-α又称为可信度。
Ⅱ型错误,第二类错误、假阴性错误, 即接受实际上是不成立的\(\pmb{H}_0\)。就是无效假设原本是不正确的,但所算得的统计量不足以拒绝它,错误地得出了无差别的结论。(接受错误)
Ⅱ型错误是针对备择假设而言的,其概率值用β表示。β值的大小一般未知,只有在不同总体特征已知的基础上,按预定的α和n才能做出估算。

3、T检验例子

3.1 样本与总体均数的比较

大量检测已知正常人血浆载脂蛋白E( apo E)总体平均水平为4.15mmol/L。某医师经抽样测得41例陈旧性心机梗死患者的血浆载脂蛋白E平均浓度为5.22mmol/L,标准差为1.61mmol/L。据此能否认为陈旧性心肌梗死患者的血浆载脂蛋白E平均浓度与正常人的平均浓度不一致?

(1)建立检验假设和确定检验水准。H0: μ=μ0,H1: μ≠μ0,α=0.05,双侧检验;

(2)选定检验方法和计算统计量。用单样本的t检验,

(3) 确定P值和作出推断结论。查t分布表, t0.05/2,40=2.021, t=4.26>t0.05/2,40,P<0.05。按α=0.05水准,拒绝H0,接受H1,可认为陈旧性心肌梗死患者的血浆载脂蛋白E平均浓度与正常人的差别有统计学意义,结合专业可以认为前者平均浓度较高。

3.2 配对设计定量资料的t 检验

• 配对设计的t检验研究的是差值均数(样本均数)与理论上的差值总体均数的比较。
• 首先计算出各对差值d的均数。当两种处理结果无差别或某种处理不起作用时,理论上差值d的总体均数μd=0。
• 可将配对设计资料的假设检验视为样本均数与总体均数μd=0的比较。据定理:

将大白鼠配成8对,每对分别饲以正常饲料和缺乏维生素E饲料,测得两组大白鼠肝中维生素A的含量,试比较两组大白鼠中维生素A的含量有无差别。

大白鼠配对号 正常饲料组 维生素E缺乏组 差数d
1 3550 2450 1100
2 2000 2400 -400
3 3000 1800 1200
4 3950 3200 750
5 3800 3250 550
6 3750 2700 1050
7 3450 2500 950
8 3050 1750 1300
Mean 3318.75 2506.25 812.5

(1)建立检验假设和确定检验水准。H0: μd=0,H1: μd≠0,α=0.05,双侧检验;

(2)选定检验方法和计算统计量。

(3) 确定P值和作出推断结论。查t分布表(双侧), t=4.2>t 0.05/2, 7 =2.365,P<0.05。按 α= 0.05水准,拒绝H0,接受H1,可以认为两种饲料喂养的两组大白鼠中维生素A的含
量有差别。正常饲料组比缺乏维生素E饲料组的含量要高。

4、t检验类型

检验有多种类型,可以分为只有一组样本的单体检验和有两组样本的双体检验。单体检验用于检验样本的分布期望是否等于某个值。双体检验用于检验两组样本的分布期望是否相等,又分为配对双体检验和非配对双体检验。配对双体检验的两组样本数据是一一对应的,而非配对双体检验的两组数据则是独立的。比如药物实验中,配对双体检验适用于观察同一组人服用药物之前和之后,非配对双体检验适用于一组服用药物而一组不服用药物。

1)单体检验

单体检验是针对一组样本的假设检验。零假设为\(\pmb{H}_0:u=u_0\)。统计量\(t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} \) 服从自由度为\(n-1\)的 T 分布。

2)配对双体检验

配对双体检验针对配对的两组样本。配对双体检验假设两组样本之间的差值服从正态分布。如果该正态分布的期望为零,则说明这两组样本不存在显著差异。零假设为\(\pmb{H}_0:u=u_0\)。统计量\(t = \frac{\bar{d} - \mu_0}{s/\sqrt{n}} \) 服从自由度为\(n-1\) 的 T 分布,其中\(\bar{d}\) 是差值的样本均值,\(s\)是差值的样本标准差。

3)非配对双体检验

非配对双体检验针对独立的两组样本。非配对双体检验假设两组样本是从不同的正态分布采样出来的。根据两个正态分布的标准差是否相等,非配对双体检验又可以分两类。一种是分布标准差相等的情况。零假设是两组样本的分布期望相等,统计量 T 服从自由度为\(n_1+n_2-2\) 的 T 分布。

\(\begin{eqnarray}
t &=& \frac{\bar{x_1}-\bar{x_2}}{s_{x_1,x_2} \sqrt{1/n_1+1/n_2}} \nonumber\\
\end{eqnarray}\)

\(\begin{eqnarray}
s_{x_1,x_2} &=& \sqrt{ \frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} } \nonumber
\end{eqnarray}\)

其中\(\bar{x_1}\) 和\(\bar{x_2}\) 分别是两组样本的样本均值,\(n_1\) 和\(n_2\) 分别是两组样本的大小,<script type='math/tex'>s_1[/latex] 和\(s_2\) 分别是两组样本的样本标准差。另一种是分布标准差不相等的情况。零假设也是两组样本的分布期望相等,统计量 T 服从 T 分布。

\(\begin{eqnarray}
t = \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \nonumber
\end{eqnarray}\)

T 分布的自由度为

\(\begin{eqnarray}
d.f. = \frac{ (s_1^2/n_1+s_2^2/n_2)^2 }{(s_1^2/n_1)^2/(n_1-1)+ (s_2^2/n_2)^2/(n_2-1)} \nonumber
\end{eqnarray}\)

附件下载:

1.统计学--t检验

本文地址:http://51blog.net/?p=2156
关注我们:请关注一下我们的微信公众号:扫描二维码广东高校数据家园_51博客的公众号,公众号:数博联盟
温馨提示:文章内容系作者个人观点,不代表广东高校数据家园_51博客对观点赞同或支持。
版权声明:本文为转载文章,来源于 To_2020_1_4 ,版权归原作者所有,欢迎分享本文,转载请保留出处!

发表评论


表情