什麼是Box-Cox?

✔ 最佳答案

Box-Cox 轉換的基本假設是:
反應變數 (資料) 做一乘冪變換後, 符合常態分布。

在這假設之下, 產生下列結果:
(1) 由於要決定的是「乘冪」部分, 也就是我們要考
慮指數函數 Y -> Y^r (在此 r 是要被選擇的,
因此是「變數」)
但此函數當 r=0 時恒為 1。因此, 若直接考慮此
形式, 將造成必須把 0 排除的問題。為解決此問
題, 將原轉換做修改, 成為
Y -> (Y^r-1)/r
當 r<>0 時, 這只是原轉換做平移及尺度調整, 但
當 r-> 0 時, 卻可得一極限式
(Y^r-1)/r -> ln(Y)
因此, r=0 時, 乘冪變換定義為 ln(Y), 是「系統
化」必然的結果。
(2) 將 $r$ 當成一個參數, 假設 (Y^r-1)/r 服從常態
分布, 形成常態模型的一個擴充模型。於是我們可
以用適當的方法去估計 r。目前常用的是 MLE, 在
BMDP 中有一程序可自動計算 r 的 MLE (但是哪個
程序我不清楚)。不過, 也有學者認為, r 不應是
任意值, 因為那樣在模型解釋上不方便 (誰能解釋
說銷售量和售價的關係是 Y^0.0245=a-bx﹖) 因此,
實務上可以:
a) 以軟體計算出 r 的 MLE 後再取一靠近 MLE 但
較易了解和解釋的 r 值。
b) 以便於解釋的一些可能 r 值一一代入計算, 選
一個在某一準則上最適當 (如 likelihood 最高)
的 r 值。

MLE 是在「常態性」假設下的做法。在此假設下, 我們
還可對 r 做推論, 如下午路老師談到的: 檢定轉換的必
要性 (或兩種轉換之間的選擇), 或做 r 的區間估計。
後者在不直接用 r 的 MLE 而用「大略值」時尤其重要。
日前路老師提到一個問題: 假設不成立時呢﹖

乘冪的 MLE 是在常態性假設之下推導而得的。但有時我
們由散佈圖直觀地認為可對反應變數做一適當轉換, 使
某一特定形式的曲線較適合轉換後資料。這是和前述 MLE
完全不同的想法----不是要改善常態性; 而可能是要改善
直線性。這樣的想法也未嘗不可, 只是僅限於從乘冪變換
去尋求「適當」變換式, 未免太狹隘。不過, 當然對此批
評, 我們也可辯解, 例如: 在「改善常態性」這觀點, 可
考慮的變換也不只是乘冪變換啊! 然而, 另一方面, 以改
善直線性為著眼, 如何對 r 做推論, 卻是個問題。SSE 是
一直觀、敘述性指標, 不知有無討論利用它做推論的文獻﹖
(若沒有, 似可當做碩論的題目。)

再者, 上述 SSE 應以原尺度計算較合理。
是否一條formula?
是一條formula。
有什麼用途?
通過BOX-COX數據轉換分析，確定熱氧化工藝目標值的最優轉換形式，針對轉換後數據建立的回歸模型滿足上述假設。結果表明：數據轉換的建模方法能滿足方差分析的假設（違反度減輕），並且能更多發掘數據信息，氧化膜厚的模型擬合修正判定係數R^2由93.54%增加到98.64%。所得模型用於優化工藝條件，在滿足膜厚目標下，非均勻性由0.2%減小到0.08%。文中討論的基於數據轉換的建模方法可以用於半導體製造其他工藝。

回答 (1)