兩母數統計的問題~混合標準差

2007-11-16 1:05 pm
某國中舉行段考,自三年1班抽出12名學生,測驗得歷史成績平均數為85分,標準差為3.5分。自2班抽出16名學生,測驗得其成績平均數為79分,標準差為5.5分。自3班抽出20名學生,測驗得其成績平均數為89分,標準差為7分。假設各班的成績均呈常態分配,且標準差均相等,試在0.05之顯著水準下,檢定:

(1)1、2兩班學生之歷史段考成績是否有顯著之差異。
(2)3班有個學生宣稱:該班此次段考歷史平均成績至少高於1班5分,試檢定其聲稱是否正確。


在解這兩小題時,是要3班都混在一起?是因為題意寫標準差
均相等?

還是求第一小題時1、2班混,求第二小題時1、3班混
更新1:

不需列計算式,只是對混合標準差這部份有點疑問

更新2:

題目沒給"標準差均相等"的情況 有一本書是不管樣本大小都先檢定變異數是否相等 另一本書是小樣本先檢定變異數是否相等,大樣本 只有題目給標準差均相等才會混合標準差,不然都 是當做不相等來解S(X1-X2)^2=S1^2/N1+S2^2/N2 到底那一個做法才是正確的???

回答 (4)

2007-11-19 2:01 pm
既然已知三群體都是常態, 而且標準差相等, 當然利用三個樣本
做 "共同標準差的聯合估計"(不叫 "混合標準差"), 也就是ANOVA 中 MSE 的平方根. 而兩兩比較就用 t 檢定, df=n1+n2+n3-3. 雖然
只用兩樣本估計並無不可 (同理, 也可用單一樣本標準差), 但從
統計效率來說, 當然以利用三樣本為佳.

不過, "假設三群體標準差相等" 當然只是假設. 實務上如果顧慮
這一點, 就不要採用這個假設, 而直接採用群體標準差不等的方
法. 至於 F 檢定, 幾十年前就已被揚棄了! 因為除非群體肯定是
常態分布, 否則兩標準差相等的 F 檢定大有問題! 若真要做兩個
以上群體標準差是否相等的檢定, 請採用對常態性條件較不敏感
的方法, 例如 Levene 檢定.

但除了像 ANOVA 或迴歸分析之類的, 在兩群體分布比較, 或者
就在 常態性假設之下採不等變異數之近似 t 檢定方法, 或者就
採無母數方法, 一般不認為有必要先去做變異數一致性的檢定.

就考題而言, 我無法揣測出題者想看到甚麼答案; 但如就實務應
用及理論而言, 另一個重要問題需考慮: 既然是三群體, 且連續
做二個兩平均數差異之檢定, 總體型I誤之機率要考慮. 因此,
為何不採 ANOVA, 並做多重比較? 或者, 以 Bonferroni 方法調
整.

歡迎到 telnet://bbs.ncku.edu.tw 或 telnet://bs2.twbbs.org 的 Statistics
版, 版面及精華區, 查閱相關討論. 例如實際群體變異數不等而
採變異數相等之 t 程序 (所謂 pooled-t) 之偏誤:
◇ 大樣本下 pooled t 的偏誤
及群體非常態時的檢定程序選用準則
◇ Re: 資料非常態怎麼辦?
還有許多教本上不一定談得夠清楚的問題.

2007-11-20 10:41:08 補充:
本題原先回答時未注意的: 第2小題要檢定的是 "3班" 平
均是否高於 "1班" 至少 5分?

用 t 檢定大家都知該怎麼做. 但 ANOVA 要怎麼做?

H: μ1=μ2
H': μ3>=μ1+5

因此, 除了以 Bonferroni 方法調整實驗錯誤率 (總體型
一誤機率) 以外, 要以 ANOVA 控制實驗錯誤率的方法,就
是把 "3班" 分數都減去 5分, 再做 ANOVA.
2007-11-16 10:03 pm
我對josephting的回答,很肯定,如果題目沒有寫「假設各班的成績均呈常態分配,且標準差均相等」這句話,那就得照他的方式來解,但如果題目有提到標準差均等,那就直接用合併變異數來做就好了。

另外他說的也沒錯,合併變異數一次紙合併兩班就好,如發問者補充所提到的求第一小題時1、2班混,求第二小題時1、3班混。
2007-11-16 8:52 pm
還是要列算式
這樣才會瞭解
那個「各班的成績均呈常態分配,且標準差均相等」
只是洩漏了這兩題要用啥分配來作
這是 2 樣本 平均數 t 考驗的基本假設:母體均為常態且變異數相等

(1)1、2兩班學生之歷史段考成績是否有顯著之差異。
很明顯這是二獨立樣本
顯進行F考驗看變異數相同或不同(變異數同質性檢驗)
公式不一樣

F=S1^2/S2^2 (S1>S2)
1班抽出12名學生,測驗得歷史成績平均數為85分,標準差為3.5分
2班抽出16名學生,測驗得其成績平均數為79分,標準差為5.5分
以二班標準差作 S1, 一班為S2
F=(5.5)^2/(3.5)^2=2.4694
查表,分子自由度=16-1=15,分母自由度=12-1=11
F(15,11,α=.05)=2.51
故無法拒絕虛無假設(H0:σ1^2=σ2^2)故符合變異數同質性
進行獨立樣本平均數差異 t 檢定公式如下
t=(M1-M2)/SE
M1 一班平均
M2 二班平均
SE標準誤公式如下
SE=√(Sp^2)(1/n1+1/n2)
Sp^2(pool estimate of population variance"池"估計母體變異數)
SP^2={[(ΣX1^2)-[(ΣX1)^2]/n1]+[(ΣX2^2)-[(ΣX2)^2]/n2]}/(n1+n2-2)
Sp^2=[(S1^2)*(n1-1)+(S2^2)*(n2-1)]/(n1+n2-2)
Sp^2=[(3.5^2)*(12-1)+(5.5^2)*(16-1)]/(12+16-2)
Sp^2=(134.75+453.75)/26=22.6346 代入SE公式
SE=√(Sp^2)(1/n1+1/n2)
SE=√(22.6346)(1/12+1/16)
SE=√(22.6346)(0.14583)=1.8168 代入t 值公式
t=(M1-M2)/SE
t=(85-79)/1.8168=3.3025
α=.05 查表 t 臨界值(自由度為n1+n2-2=26)為 2.056
因為 統計值 (3.3025)大於臨界值(2.056)落入拒絕區
拒絕虛無假設(H0:μ1=μ2)
故兩班平均數不同
故一班歷史成績平均數高於二班
--------------------------------
解完 並沒有牽涉到三班標準差放在一起計算的問題
只是要知道如何計算「標準誤」以及「池估計母體變異數」
--------------------------------
(2)3班有個學生宣稱:該班此次段考歷史平均成績至少高於1班5分,試檢定其聲稱是否正確。

一樣要用t檢定
H0:μ3-μ1>5 可化成
H0:(μ3-μ1)-5>0 (注意,單尾檢定)

同樣要作F檢定
F=(7^2)/(3.5^2)=4
查表,分子自由度=20-1=19,分母自由度=12-1=11
F(15,11,α=.05)=2.65
注意拒絕虛無假設(Ha:σ3^2≠σ1^2)故變異數不同質
必須使用第二種 t 檢定公式
且必須計算新自由度
df= {[(S1^2/n1)+ (S2^2/n2)] ^2} / ([(S1^2/n1)^ 2/( n1-1)]+ [(S2^2/n2) ^2/( n2-1)])

df= {[(7^2/20)+ (3.5^2/12)] ^2} / {[(7^2/20)^ 2/(20-1)]+ [(3.5^2/12) ^2/( 12-1)]}

df=(12.0467) / (3.8815)=3.104=3

t檢定公式
t=statistic/SE
statistic=M1-M2-5=-1(很明顯不可能超越臨界值)
SE=√[(S1^2/ n1)+ (S2^2/ n2)] (與前一題公式不同)
SE=√[(7^2/ 20)+ (3.5^2/ 12)] =1.863
t=-1/1.863=-0.5368
查表臨界值 t (單尾,α=.05,自由度3)為2.353
未落入拒絕區
接受虛無假設 (三班平均未高於一班平均5分)
3班該學生聲稱不正確
-----------------------------------
結論
這兩個考題重點是考「變異數同質性」與「變異數未同質」時
應採用不同的 t 檢定公式
如果妳用SPSS跑就會發現 t 表有兩欄
一欄就是給變異數同質時的數據
另一欄就是變異數不同質的數據

合併的變異數勉強是那個 Sp^2
但是那是pool estimate of population variance
直接翻譯應是「池估計母體變異數」
而且每次只用到兩班的變異數來計算喔
(如果要計算第三班與一班的effect size也是要用到 Sp)

2007-11-22 14:59:53 補充:
根據大部分的教科書,計算兩獨立樣本的平均值比較使用 t 檢定時
都必須先檢查樣本變異數同質性(F考驗)
至於版主提的大樣本狀況下先假設樣本不同質(採用第二式)
除非題目提供變異數相同的數值再採用第一式
這是因為在大樣本的時候第一式與第二式的 t 值會相同
因為此時第一式與第二式兩者的合併變異數公式會得到相同的值
其實第二式的算法是要因應變異數不同質的特殊狀況
擔心會將犯第一類型錯誤α扁平化
重點就剩下自由度(因為第二式必須重新計算自由度)

2007-11-22 15:01:57 補充:
在第二式中自由度絕對會小於第一式
所以臨界值 t 在第二式中會大於第一式
所以在大樣本中,你都會得到相同的 t 值 (統計量)
但如果你的統計量與較大的臨界值 t 值比較
就會降低你犯第一類型錯誤的機會
(也就是第二式達顯著,用第一式公式一定也會顯著,第二式比較嚴謹)
但如果我是研究者,我發現第二式不顯著,可是我的兩個樣本變異數同質性,即使我
的樣本大我也要用第一式來查有沒有顯著差異啦。
2007-11-16 7:33 pm
恩 因為題意寫(母體)標準差均相等 利用mse(合併標準差估計母體標準差)估計3個相同(母體)標準差 所以3班都混在一起......印象中是這樣

2007-11-16 11:38:15 補充:
利用合併標準差估計3個相同的(母體)標準差
參考: 印象中是這樣...., 參 考 記 憶


收錄日期: 2021-05-04 01:44:00
原文連結 [永久失效]:
https://hk.answers.yahoo.com/question/index?qid=20071116000015KK01486

檢視 Wayback Machine 備份