✔ 最佳答案
作者 yhliu (不務正業的老怪物)
標題 [Q & A] 分組資料中位數的計算問題 --- 1
時間 Tue Aug 1 11:37:23 2000Q1: 分組資料中位數位置, 是該用 n/2 或 (n+1)/2?[A] 一般分組資料中位數位置用 n/2 而不用 (n+1)/2,
書本上可能解釋說「因為 n 很大時差異不大」;
然而, 「差異不大」並不一定是採用 n/2 的理由! 事實上未分組資料用 (n+1)/2 的道理在於「中間
那一項」。由第一項到第 n 項的最中間一項是第
(n+1)/2 項。 然而分組資料呢? 這基本上需從「連續型計量變數」
的概念著手。學過直方圖」、次數多邊形及累積次
數多邊形, 我們當知這些都是基於假設「原始資料
是連續型計量變數的觀測結果」。而由累積次數多
邊形, 要找中位數, 就是對應累積到 50% 的位置。
有 n 個觀測值, 則 50% 當然就是 n/2。而分組資
料計算中位數的公式, 就是由累積次數多邊形來的:
累積次數多邊形在各組內以直線連接, 就是「線性
插補」的意思。中學時我們學過對數表、三角函數
值表等, 也學過:
如果要查表的函數值在表上找不到, 可以用直
線插補近似之。
假設有下列次數分配:
x 0-4.99 5-9.99 10-14.99 15-19.99 20-24.99
f 2 5 10 6 2
累積 2 7 17 23 25
累積次數多邊形的橫(x)、縱(F) 軸確定點如下:
x 0 5 10 15 20 25
F 0 2 7 17 23 25
注意原來的次數分配表中「累積(次數)」那一欄的次
數, 事實上是該組上界達到時的累積次數。累積次數
多邊形, 將上列 6 個已知的點用直線依序連接, 並假
設這就是正確分布的近似。因此, n/2 的位置在 10-15
之間 (10-14.99 那一組), 以線性插補可知 F 是 n/2=12.5
時所對應的 x 值是
x = 10+[(12.5-7)/10]*5, 即 x-10 : 5 = (12.5-7) : 10 事實上這和未分組資料是相同的 --- 只是外貌有別而
已! 設未分組資料 n 筆, n 為奇數。將每一筆無重複
資料視為單獨一組,資料值即是組中點。則
n/2 = (n-1)/2 + (1/2)
因此中位數是在第 (n-1)/2 + 1 組中, 且享該組 1/2
組距 --- 但記得 1/2 組距正是組中點所在, 因此中位
數正是第 (n-1)/2+1 個觀測值。 當 n 為偶數時, n/2 為整數, 則在個別分組情況, n/2
是第 n/2 組的結束點, 第 (n/2+1) 組的起點。如果分
組時這相鄰兩組的共同邊界是它們的中點, 則結果分組
資料的算法和未分組結果一致。 當 n 為偶數時亦可採用兩個觀測值一組的分組法, 使
第 n/2 個及第 n/2+1 個觀測值在同一組, 這組是中位
數組, 且中位數分享這一組組距的 1/2, 也就是落在組
中點位置, 結果又是這一組兩個觀測值的平均。
2013-06-26 12:42:19 補充:
轉貼舊文不是要來搶解答, 搶點數, 只是提供一愚之得.
2013-06-26 12:46:38 補充:
在上列 "參考資料" 所載討論版精華區(按 z 進入)之7之14中,
尚有些學習初級統計可能有的疑問及個人淺見, 歡迎參考並
指教.
2013-06-26 12:50:35 補充:
分組資料之分位數算法, 從前述觀點來看, 是一致的.
倒是非分組資料四分位數算法有許多種, 將得到不同
結果. 可參考上引討論區之精華區之7之4的第9篇.
2013-06-26 14:19:02 補充:
就是怕你刪答案, 所以特別聲明不是來搶答的...
2013-06-26 14:26:37 補充:
次數多邊形, 是根據次數分布的直方圖, 畫出一條折線,
可以看成是密度曲線的近似. 它的畫法是從有次數的前
一組中點(0次數)開始, 順序連接各組中點 (高度是各組
次數), 直到最後一組的下一組(再次回到 0 次).
以前面回答中的例子而言, 就是連接 xy-座標 (-2.5,0),
(2.5,2),(7.5,5),(12.5,10),(17.5,6),(22.5,2)及(27.5,0) 各點
的折線段.
2013-06-26 14:29:56 補充:
累積次數多邊形, 顧名思義, 就是表明累積次數的一條
折線. 以前例而言, 連結的點是(0,0),(5,2),(10,7),(15,17),
(20,23),(25,25) 等點的一條折線段. 這是 cumulative
distribution function (累積分布函數, 或稱分布函數) 的
一個近似.
2013-06-26 14:35:30 補充:
其實唯一的重點是:
分組資料之中位數及其他分位數算, 從 "連續型資料分布"
去思考, 就很自然了!
2013-06-26 14:36:44 補充:
而且我那篇文是13年前的東西了...
2013-06-26 14:40:51 補充:
確實是大學的 "統計學" 課程中會有 "次數多邊形" 等呈現次數
分布的東西. 至於國、高中, 我並不清楚其教學內容, 但知是附
屬於如數學等課程, 講的不夠詳盡其一, 可能有些有誤導之虞是
其二.
2013-06-26 14:46:15 補充:
"中位數", 以連續型資料分布或連續型機率分布來看, 就是
把整個分布平分為二的一點, 也就是在所有資料一半的位置.
因此如回答中所取的例子, n=25, 中間部分是累積到 12.5
的地方 --- 雖然次數是整數, 但既然考慮連續分布, 假設是可
以任意細分的, 所以照取. 然而因為資料已分組, 無法像未分
組資料那樣說 "12.5" 的位置就是第13個觀測值, 而是用 "直
線插補" 的觀念來理解.
2013-06-26 17:54:45 補充:
其實你的回答的論點以前我也曾見過, 不知是否在中文教本上,
所以我的回答一開始也指出可能有書本是那麼解釋的.
只要是正確回答, 誰的被選上其實都無所謂. 我還曾幾次遇到
正確回答不被選上, 而選上的卻是錯誤回答. 這種情形我只覺
得 問者很可憐 --- 他問了, 也有人回答了, 但他不僅沒學到,
連辨別正誤都不知道, 反而可能記住了錯誤的東西.
參考: 原載 telnet://bbs.ncku.edu.tw 之 Statistics 版