X=(x1+x2+x3+...+xn)/n, Y=(x1+y2+y3+...+yn)/n
則XY跟 (x1*x1+x2*y2+x3*y3+...+xn*yn)/n
誰大?
[R]
不一定.
(x1*x1+x2*y2+x3*y3+...+xn*yn)/n - XY
是資料對 (x1,y1),(x2,y2)...,(xn,yn) 的 "共變異數".
2011-10-18 08:56:34 補充:
把這 n 個資料對畫在 xy-座標平面, 成 n 個點.
這 n 個點若有 左下--右上 形狀(趨向), 則共變異數是正的;
若有 右下--左上 形狀, 則共變異數是負的.
與 "共變異數" 相關的一個指標是 "相關係數".
2011-10-18 09:48:39 補充:
令 X=(x1+x2+x3+...+xn)/n, Y=(x1+y2+y3+...+yn)/n
則XY跟 (x1*x1+x2*y2+x3*y3+...+xn*yn)/n
誰大?[R]
不一定.(x1*x1+x2*y2+x3*y3+...+xn*yn)/n - XY是資料對 (x1,y1),(x2,y2)...,(xn,yn) 的 "共變異數". 把這 n 個資料對畫在 xy-座標平面, 成 n 個點.
這 n 個點若有 左下--右上 形狀(趨向), 則共變異數是正的;
若有 右下--左上 形狀, 則共變異數是負的.與 "共變異數" 相關的一個指標是 "相關係數". [/R]
如果運用到物理分析上:
長方形物體,計算面積時應以長度平均值與寬度平均值相乘,還是長寬一對一相乘再取平均?(長、寬各約測量10次)
[R]如果每次測量的誤差是相互獨立的, 而且長、寬誤差也是
相互獨立的.令 μ 是真正的 "長", "ν" 是真正的 "寬",
x_i 是 "長" 的第 i 次測量結果, y_i 是 "寬" 的測量結果.
故 x_i = μ+ε_i, y_i = ν+δ_i.
A = (x_1+...+x_n)/n, B=(y_1+...+y_n)/n.
因假設 ε_i, δ_i, i=1,...,n 相互獨立,
因此, (x_1,y_1),...,(x_n,y_n) 的相關散佈圖將無明顯趨勢,
也就是: 零相關. 所以, 可以說
Σ(x_i y_i)/n ≒ AB
當然, 實際上兩邊不會真的相等, 但沒有理由說哪邊會較大.這也就是說, 兩種算法用於估計真正的 "面積" μν 都可以.但哪種算法較好? 可以考慮 "均方誤差"(mean squared error):
(AB-μν)^2 的 "期望值"
與
[Σ(x_i y_i)/n -μν]^2 的期望值.
均方誤差 MSE = 變異數 + (偏誤)^2.首先看兩種算法(估計式)有無偏誤(bias), 當然這裡假設
原來對長寬的測量是無偏誤的.由於假設長寬之測量誤差相互獨立, 且無偏誤,
因此 E[A]=μ=E[x_i], E[B]=ν=E[y_i] 且
E[AB]=E[A]E[B]=μν=E[x_i y_i], i=1,...,n.
因此, 兩種算法(估計)都是無偏誤的 (bias=0).因為無偏誤, MSE=variance.
Var(AB) = E[(AB-μν)^2]
= E{[(A-μ)ν+μ(B-ν)+(A-μ)(B-ν)]^2}
= Var(A)ν^2+μ^2 Var(B) + Var(A)Var(B)
以上是利用了 ε_i 與 y_i 相互獨立, for all i,
的假設.類似地,
Var(x_i y_i)
= Var(x_i)ν^2+μ^2Var(y_i)+Var(x_i)Var(y_i).設 Var(ε_i), 即 Var(x_i), 為 σ^2, 即:
長的測量標準差為 σ; 又設寬的測量標準差為 τ.
則: 在歷次測量誤差相互獨立且等幅的假設下,
Var(A)=σ^2/n, Var(B)=τ^2/n,
故
Var(AB)=σ^2ν^2/n+μ^2τ^2/n+σ^2τ^2/n^2.
而
Var(Σx_iy_i/n) = Var(x_1y_1)/n
= (σ^2ν^2+μ^2τ^2+σ^2τ^2)/n
兩種算法都是 unbiased, 而 AB 的 variance 與另一算法
的 variance 只差在第三項是 (σ^2τ^2)/n^2 或
(σ^2τ^2)/n.
結論: 用 AB 估計μν 比用 Σx_iy_i/n 來得好.
也就是說: 應先給出 "長"、"寬" 的精確估計, 再根據精確
估計的長寬計算面積.[/R]