Logistic regression model 與 logit model 可以說是同一種方法,
雖然有時候會把前者指稱給解釋變數是連續型迴歸變數的情形,
而以後者稱呼解釋變數全是類別變數的情形, 但實質上它們並沒
有差別.
這種模型是用在二元反應變數的. 所謂二元反應變數,
(1) 這變數是模型中的 "依變數" (dependent variable);
(2) 這變數的值只有兩種可能, 通常以 0 與 1 代表它們.
令 Y 是二元反應變數, P[Y=1] = p = 1-P[Y=0].
這個 p 被假設為是一些解釋變數的函數: p = p(x) = E[Y|x].
E[Y|x] 的正式寫法應是 E[Y|X=x], 是解釋變數 X 的值限定等於 x
時, Y 的條件期望值.
注意 p=p(x) 是介於 0 與 1 之間的, 即 0<p(x)<1, all x.
因此, 它與 x 的關係通常不會是直線的, 如 p(x)=α+βx 這樣的函
數很容易超越 0-1 的界限. 一般假設 p(x) 經過某種變換 g(p(x)),
其結果擴展至 -∞ 至 +∞ 之間, 再來考慮它與 x 的關係, 比較可
能用直線關係來描述: g(p(x)) = α+βx.
當然, p(x) 的範圍受限這種純數學性的思考不是採取變換的唯一
理由, 而是一些理性的思考也摻雜在內, 例如 p(x) 做為 Y=1 的
比例, 當 p 小時, 絕對量的微小變化, 從相對量而言可能是極大
的, 例如死亡率 0.1% 與 0.5% 相對差距而言是 5倍. 又當 p(x)
接近 1 時, 要再增加當然比較困難. 例如工業生產姿率要由 99.9%
提高為 99.95%, 所要做的努力可能遠高於由 30% 提高為 40%.
logit model 或 logistic regression model 名稱源自 g(p) 的形狀
是所謂 logistic curve:
g(p) = ln[p/(1-p)]
這也稱為把 p 變為 "邏輯值"(logit).
一般, logit model 被歸為 "廣義線性模型"(generalized linear
model) 之一. 這 "線性" 一詞通常不是指 g(p(x)) 與 x 的關係是
直線型的, 而是指 g(p(x)) 與 x 的關係可以用一些未知參數的線
性關係表示:
ln[p(x)/(1-p(x))] = β_0+β_1*x_1+...+β_p*x_p
此處 x_1,...,x_p 可能是由某些原始解釋變數經過非直線型的變
換而來的, 例如 "多項式迴歸":
ln[p(x)/(1-p(x))] = β_0+β_1*x+...+β_p*x^p.
總而言之, 所謂 logit model 或 logistic regression model, 就是
假設二元反應變數是某一特定值的比例 p, 經邏輯值變換
g(p) = ln[p/(1-p)]
之後可以用所謂 "線型式" 來描述它和解釋變數間的關係.
2013-03-14 16:42:56 補充:
雖然 "類神經網路" 方法中一般會使用 logit 變換來聯繫父子節點間
的關係, 但 logit model (logistic regression model) 不必然就是類神經
網路方法; 而類神經網路方法也不是 MicroSoft 的東西, 充其量是 MS
有些相關的產品罷了!
2013-03-14 16:43:13 補充:
類神經網路雖然也是利用資料來調整其 logit model 中的係數, 但所
用的方法比較是 "人為的", 意思是說它似乎並不是在某些假設下求
某些準則上的 "最佳化" 的結果.
另一方面, 統計上的 logit model 方法, 是在隨機抽樣下二元反應之機
率模型之下, 考慮最大概似法或加權最小平方(其目的其實是為了達到
估計誤差的最佳化)而進行估計.
2013-03-14 16:43:25 補充:
因此, ANN 的計算是簡單的(模型則是較複雜的, 因為整個網路有好幾
層節點, 也就有更多個 logit models); 而統計的 logit model 的計算是繁
複的, 若再考慮多個模型聯立, 還有更複雜的模型, 其計算量遠非 ANN
可比.