幾個重要簡單的機率概念 – 1st and 2nd order statistics

by allenlu2007

標題沒寫錯。很多事都是重要但簡單。就像空氣和水。 

物理學最重要的幾個觀念: 對稱!  Stationary or optimal!! (e.g. 最小作用, 最短時間, 最小能量) 都很直觀簡單。

機率和統計其實是處理複雜系統的數學或 model.  原來是很複雜,但正因為太複雜了所以變簡單。

 

有人說 1 個粒子很簡單,兩個粒子就複雜。三個粒子就無解。但很多粒子又變簡單。

回到機率和統計。是否存在一些簡單的觀念可以吾道一以貫之? 我認為有。 

 

1st order statistics:  大數法則 (LN)

==>  重要觀念:  如果不知道如何 estimate parameter,就取平均值。

Example: estimate Bernoulli p parameter, 就取平均值。

p = E(X)  —> first order statistics

or E(Y|X) 

Two and multiple variables:

 

 

2nd order statistics:  Central Limit Theory (CLT)

(a) 1 variable: variance, standard deviation, confidence interval

var ~=  average(|X-p|^2) ??

 

(b) (regression) 2 and more variables: covariance matrix, correlation coefficient 

 

(c) (statistic inference) 若 X, Y 有 correlation, X 是 hidden variable or latent variable, Y 是 output observable.

p = sigma(X,Y)/sigma(X,X)  –> second order statistics inference

Kalman filter Kalman Gain ~ sigma(X,Y)/sigma(X,X)

 

(d) Parameter estimation using 2nd order statistics; 如下

前面提到的 X, Y 都是 random variables.  藉著 X, Y 之間的 statistics (1st or 2nd order) 可以從 Y 來 estimate X.

另一大類問題是 parameter estimation 問題。基本上 X ~ f(x; θ)  θ 是要 estimated parameter(s).

有兩派理論:  Parameter optimization (Maximum Likelihood Estimation) 和 Bayesian inference

MLE 就是找 likelihood function 對應 maximum 的 θmle.  就是 score = 0 解 θ.  可以參考下文或 Google.

先說 MLE  結論

NewImage

MLE 的缺點:

(1) No embedded prior  ->  addressed by Bayesian

(2) Need a probability model (Bernoulli, Normal, Exponential)  –>  addressed by descriptive statistics

 

Bayesian inference 把 θ 視為 random variable 而非是 parameter.  因此 parameter estimation 問題變成 statistic inference 問題。只是比較 special 的 inference.  (i.e.  random variable based on another random variable).

一般而言,Bayesian inference 可分解成  prior * likelihood = posterior.   其中一些常用的 distribution 可以找到 conjugate prior.   這種情況的 posterior 其實結論和 MLE 差不多。即使沒有 conjugate prior, 在 samples 夠多時,還是由 likelihood function dominate.  因此 MLE 的結論仍可適用。

Frequentist vs. Bayesian

* Maximum likelihood (MLE) and Bayesian :  Objective vs. Subjective

* Posterior = Prior * Likelihood  / normalization constant

 

  

Higher Order Statistics and Others

雖然有 3rd order statistics (skewness) and 4th order statistics (kurtosis) 等更高維的 statistics.  實務上的用處非常有限或無用。一般而言,1st and 2nd order statistics 已經足夠 capture 最重要的統計特性。這也可以從 central limit theory 中看出。不過確實在某一些理論証明,仍然需要知道更高維(或)的 statistics 

常見是用全部的 pdf 或是 dual function: moment generating function. 

  

另一類 statistics based on event probability, 被 Shannon 發揚光大的是 Entropy 或是 (Shannon) Information. 

注意 Fisher Information 和 Shannon Information 是完全不同的概念。Fisher information 愈大,代表 estimated parameter 愈準或愈確定。反之 Shannon information 則是代表不確定。完全確定的事件 Shannon information = 0.  愈不確定的事件 Shannon information 愈大。

Entropy 或 Information 似乎只和 PDF or PMF 本身的機率有關。而非似 random variable 的一種 “measure” 或 “測度” ! 如 mean or variance (E[X] or E[X^2]).  

例如可以定義 “太陽從東方昇起” 或是 “人咬狗” 的 “information” by the event probability.  但是很難定義 mean or variance, 除非人為的 mapping to 1/0 by using the indicator function.

從這個角度,似乎 information or entropy 比起 mean or variance 是更 fundamental 的 statistics 特性。

Shannon Information 的定義如下:

NewImage

注意 H 的定義並不需要任何對應的 random variable, xi -> pi.  pi 只需要 follow probability 的規則即可。

(pi≥0, ∑pi = 1, etc.)

負號是讓 H ≥ 0.  另外 b = 2, 方便 Bernoulli distribution 得到一個整數, i.e. “bit information”

 

對於 Bernoulli distribution with probability p:  H = – ( p log p + (1-p) log(1-p) )

如果 p = 0.5,  H = – (0.5 * -1 * 2) = 1 “bit information”

如果 p = 1,  H = – (1*0 + 0* -∞) = 0;   同樣 p = 0,  H = 0.   p=0 or 1 表示無懸念,0 “bit information”.

如果 p → 0,  H = – ( p * log p + (1-p) log (1-p) ) ≈  – p log p  

可以証明 Bernoulli 的  0 bit ≦ entropy or information ≦ 1 bit.  這恰巧和數位通信的概念不謀而合。

 

另一個重點是 entropy 根本不需要一般 Bernoulli distribution 的 X = 0 or 1.  事實上 X 可以是 3 (probability = p) or 10 (probability = 1-p),  或是非數值, “下雨” (probability = p) or “不下雨” (probability = 1-p).   都會得到同樣的 H.

但這些例子的 mean and variance 都和標準的 Bernoulli distribution 不同。甚至有些例子無法定義 mean and variance.

下圖再強調 entropy 的物理意義和傳統的 random variable 的 mean and variance 不同。Fig1.(a) H=0 因為沒有任何 uncertainty.  Fig1.(b) H=1 shown in the Bernoulli distribution.  Fig1.(c) H=2 則有更多的 uncertainty or information.

從 Fig1(a)-(c) 可以看出: H 和 mean 完全無關。但似乎和 variance 相關。Variance 愈大代表 uncertainly 愈大,因此 H 愈大。反之則愈集中,H 愈小。

基本上趨勢是對的。但並非完全 1-to-1 對應。例如 Fig1.(d)-(f) 從 H 的定義是完全相同 (H=1.5 bit),只是重新 arrange probability distribution.  但 Fig1. (d) 的 variance 顯然比 (e) and (f) 小。

NewImage

由此可以看出 entropy/information 是用不同的角度看待 probability or statistics, 和傳統的 mean and variance 方式完全不同。

我覺得比 Information 比 Random variable (mapping to R) 更基本。學完 Probability, 應該先學 Information Theory, 再來才是 Random Variable and Random Process, 最後是 Statistics.

 

對於 continuous distribution (e.g. normal distribution), 也有同樣的情形。可以把 pdf 切成無數的小直條。(對應不同的 event).   每一直條的 dPi = f(x) dx.  唯一的差別是用 log(2) -> log(e).  H 的單位從 bit -> nat.  

因此 Shannon Information

H = – ∑ dPi log dPi = – ∑ f(x) log f(x) dx dx = ∫ [- log f(x)] f(x) dx = E[ -log(f(X)) ]

此處引入 expectation 或是 random variable or PDF 只是讓不同 x 對應不同 event.  

其實和一般的 expectation of mean and variance 有差異。

 

例如 pdf: f(x) → f(x-10) 平移10 :  mean 會加 10;  variance 不變。

但是從 entropy 來看:  entropy/information 完全不變。因為機率分佈相同。

但是 pdf: f(x) -> f(10x) 則會同時影響 entropy and variance. 

 

Please refer https://en.wikipedia.org/wiki/Differential_entropy for 常見 continuous PDF 的 Entropy (in nats)

例如 Normal distribution 的 entropy 如下 (e 是 Euler constant).  可以看出 entropy 和 mean (u) 完全無關。但和 variance or standard deviation (σ) 有 nature log (ln) 的關係。對於大多數常用的 PDF, entropy 和 variance 都有類似的關係!

如前所述,可以 create 一些特別的 distribution 讓 entropy 和 variance 無關。但大多常用的 distribution (one peak) 比較 類似 normal distribution 的結果。

f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right) \ln\left(\sigma\sqrt{2\,\pi\,e}\right)

 

如何應用 Entropy?

Entropy 在 information theory 扮演核心的角色。特別在數位通訊理論,hypothesis detection, etc. 

但如何應用在 statistics?   

可以用兩個 probability distribution 來比較。例如一個 distribution 用 normal distribution 或其他 known distribution; 另一個則是 DUT distribution.  從兩者的差異如 cross-entropy, or Kullback-Leider divergence, etc.  to explore the DUT statistics. 

 

Cross Entropy and Kullback-Leiber Divergence (i.e. Relative Entropy)

Cross-entropy H(p, q) 定義:

For discrete p and q probability distribution 

H(p,q)=-\sum _{x}p(x)\,\log q(x).\!
The situation for continuous distributions is analogous:
-\int _{X}p(x)\,\log q(x)\,dx.\!

注意 H(p, q) ≠ H(q, p).  同時 H(X, Y) 也常用來表示 X, Y 的 joint entropy.  不要搞混。

 

另外可以定義 Relative Entropy or Divergence KL(P||Q)  如下:

For discrete probability distributions P and Q, the Kullback–Leibler divergence from Q to P is defined[5] to be

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\,\log {\frac {P(i)}{Q(i)}}.

For distributions P and Q of a continuous random variable, the Kullback–Leibler divergence is defined to be the integral:

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\,\log {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!

where p and q denote the densities of P and Q.

明顯 KL(P||Q) = – H(p) + H(p, q) = H(p, q) – H(p)

KL(P||P) = KL(Q||Q) = 0   ;   KL(P||Q) ≠ KL(Q||P)

KL(P||Q) 可以視為多知道 Q; P 所增加的 information bit.   所以 KL(P||Q) ≧ 0.

 

以下的論証是錯的! 

P and Q 並非任意的 pdf 都可以達到 KL(P||Q) ≥ 0 (Wrong!).   Any P and Q, KL(P||Q) ≧ 0

舉例如果 P(x) 是 normal distribution N(0, 1).

如果 Q(x) ~ N(0, 1/4),  在 p(x) 大的時候,控制 p(x)/q(x) << 1;  反之在 p(x) 小的時候,p(x)/q(x) > 1.  

因為  ∫ p(x) dx = ∫ q(x) dx = 1.    似乎可以讓 KL(P||Q) < 0 (Wrong!)

Solution 如下:

NewImage

σ2 = 1/2,  σ1 = 1,  u1=u2=0,   KL(p,q) = log(0.5) + 1/(2*1/4) – 1/2 = log(0.5) + 2 – 1/2 > 0


 

Two multivariate normal distributions, with means \mu _{0},\mu _{1} and with (nonsingular) covariance matrices \Sigma _{0},\Sigma _{1}. If the two distributions have the same dimension, k, then the Kullback–Leibler divergence between the distributions is as follows.[12]

 

D_{\text{KL}}({\mathcal {N}}_{0}\|{\mathcal {N}}_{1})={1 \over 2}\left(\mathrm {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top }\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\det \Sigma _{1} \over \det \Sigma _{0}}\right)\right).

 

The equation therefore gives a result measured in nats. Dividing the entire expression above by loge 2 yields the divergence in bits.

 

下圖是兩個 Gaussian with different means.  P 是固定; Q 是移動最後趨近 P.  KL 是灰色面積的積分。當 Q 比較遠離 P 時,KL waveform 差異大而且不對稱,代表 KL(P||Q) ≠ KL(Q||P).  當 Q 接近 P 時,KL waveform 差異小且接近”反對稱”, 積分接近 0.   

 

NewImage

 

証明任何 P and Q  PDF/PMF 都滿足  KL(P||Q) ≧ 0;  參考本文

首先利用 PMF 的特性:  ∑pi = 1 and pi ≧ 0.

其次 f(x) 是 convex function.  再利用 log function 是 convex function.

 

NewImage

 NewImage

結論就是 KL(P||Q) ≧ 0   不論 P and Q 是什麼 distributions.  也不管 P and Q 是 independent 或是 correlated.   KL(P||Q) = 0 iff P = Q.

另外就是 H(P, Q) ≧ H(P).   此處也非由 P and Q independent or correlated 決定。純粹是由 P and Q 的 PDF/PMF 相似度決定。相當顛覆之前的 statistics 觀念 (independent or correlated).

 

The Kullback–Leibler divergence is always non-negative,

D_{\mathrm {KL} }(P\|Q)\geq 0,\,
a result known as Gibbs’ inequality, with DKL(PQ) zero if and only if P = Q almost everywhere. The entropy H(P) thus sets a minimum value for the cross-entropy H(P,Q), the expected number of bits required when using a code based on Q rather than P; and the Kullback–Leibler divergence therefore represents the expected number of extra bits that must be transmitted to identify a value x drawn from X, if a code is used corresponding to the probability distribution Q, rather than the “true” distribution P.

 

The cross entropy for the distributions p and q over a given set is defined as follows:

H(p,q)=\operatorname {E}_{p}[-\log q]=H(p)+D_{{{\mathrm  {KL}}}}(p\|q),\!

where H(p) is the entropy of p and D(p||q) is the Kullback–Leibler divergence of q from p.

 

Q: P and Q 需要有任何 correlation or independent? 還是已經隱藏在定義之中?

A: P and Q 只是兩個 PDF/PMF 的關係,不管 P and Q 是 independent or correlated.

H(P,Q) and KL(P||Q) 的用法並非是兩個 random variables 之間的關係。

 

可以用 Shannon 的觀點來看。P 是正確的 PDF,  產生一連串的 samples (如 a, b, c, …, z).  

H(P) 就是根據這個 PDF, 可以算出最精簡的 encoding scheme (Huffman encoding) 需要幾個 bit 可以 encoding a-z.  但如果我們不知道這個 p distribution, 只能用 q distribution 來近似,就會需要更多的 bit to encode.  這就是 H(P, Q).   所以 H(P, Q) ≧ H(P).  等號成立是 P 和 Q distribution 相同。   

所以 cross-entropy or relative entropy 的 P, Q 是對於同一 attribute/event (如身高) 不同的 PDF (正確的和近似的) 所造成的 information difference.   但在一般 random variables 則是對不同 attributes/events (如 P 是身高, Q 是體重) 各有不同的 PDF, 同時還有 correlation.   

 

我們用幾個例子說明: 

Example 1:  Cross-Entropy Loss Minimization/Optimization (參考 wiki)

在 Machine learning 的 linear regression, key concept 是 minimize square loss function.

也就是 minimize | Ax + b |^2  given tall A and b.

 

在 Logistic regression, key concept 是 minimize cross-entropy loss.  什麼是 cross-entropy loss?

先 review cross-entropy:


H
(p,q) = Ep[logq] = H(p) + DkL(p||q) = – ∑ p(x) log q(x)

 

 if p ∈ {y , 1-y }  and  q ∈ { y^, 1-y^ } 都是 Bernoulli distribution but with 

H( p, q(θ) ) = – { p(x) log q(θ;x) + (1-p(x)) log (1-q(θ;x)) }  ≥  H(p) = constant

注意 x 在此是代表某一個 event.  就像 encoding 時收到一個 “c” or “e” 一樣。

p(x) 表示真正 PDF/PMF 對這個 event 的機率;  q(θ; x) 表示近似 PDF/PMF 對這個 event 的機率。

Cross-entropy 一定會大於 self-entropy.  我們的工作就是調整 θ 讓 H 愈小愈好。

 

Cross-entropy loss minimization 就是找出 q(θ) for minimal cross-entropy 

或是 maximize:  { p(x) log q(θ;x) + (1-p(x)) log (1-q(θ;x)) }

 

Logistic Regression (LR) 就是讓 q(θ;x) = 1/[1 + exp(-θ•x)   ;   1-q(θ;x) = 1/[1 + exp(+θ•x)

p(x) 就是直接用真正 observed outcome, {0, 1}.  當然如果我們可以知道或觀察 p(x) 實際的機率就更好。

 

Training sample 包含:  (x1, y1), (x2, y2), … (xn, yn)

where y1, y2, …, yn ∈ {0, 1} for logistic regression.  注意 yi 也可以是任何 {p, 1-p} 如果我們知道更多的 information of y.

把上述問題轉為 maximize 所有的 cross-entropy loss; 或是平均 cross-entropy loss

 {y1 log [1/[1 + exp(-θ•x1) ]  + (1-y1) log [1/[1 + exp(+θ•x1) ]}  +  {y2 cross entropy loss} + … + {yn loss} 

=  ∑ yi log [1/[1 + exp(-θ•xi) ]  + (1-yi) log [1/[1 + exp(+θ•xi) ]

這剛好也是 MLE 所得到的結果。

 

Q: 為什麼 P and Q 不互換?  

A: (i) 數學上的理由是 θ (optimzed parameter) 只能出現在 Q.  不然 optimization 就無法做。

(ii) 更重要的理由是 logistic regression (or any other PDF/PMF) 只是一種近似。永遠無法取代真正的 probability P.  就算 observed outcome 只有 {0, 1} 的結果也比近似的 PDF/PMF 真實。不可能用真正的 data 去近似一個 “近似的 logistic distribution”.   Observed data 再少或是再簡單 (positive or negative cancer) 還是真正的 information. 

 

是否可以推廣到其他的 distribution?

Type 1:  Q 改為 Normal distribution (注意用 CDF 而非 PDF)? 

maximize:  { p(x) log q(θ;x) + (1-p(x)) log (1-q(θ;x)) }

只要讓 q(θ; x) = ∫ N(u, σ) ,  也可以改成 normal distribution with θ = {u, σ} similar to {βo, β1} in LR.

差異是 tail 掉的速度變快 ~  exp(-x^2) instead of exp(-|x|) 

 

Type 2:  P and Q 從 Bernoulli 變成 Softmax

P  從 {p, 1-p} 改成 pi, pi>0, ∑pi = 1.  {p1, p2, …, pk} sum to 1.

  In reality:  {p, 1-p} => {1, 0}.   {p1, p2, .., pk} => {1, 0, 0, … 0} 用 one-hot 表示 P distribution.

Q  從 logistic function 改成:  exp(+θi•x) / ∑ exp(+θi•x)    i = 1, 2, .., k.  表示 Q distribution.

  在 logistic function 時, k=2: θ1=θ;  θ2= -θ  

Softmax 原則上在 training 只適用 one class 情況。因為是用 one-hot encoding 來表示。當然在 testing 時可以根據 probability 決定 multiple classes.  但如果 training 時,xi 屬於 multiple classes 是否可處理?

一個方法是用 {0.5, 0, 0, .., 0.5, 0, 0} for 2 classes 表示 P distribution.  依此類推。這樣可以讓 Softmax 用於 multiple classes 情況。 

 

Type 3:  P and Q 從 discrete Bernoulli 變成 continuous distribution

maximize:  ∫ p log q(θ; x) dp = log q(θ; x)  其實就是 log likelihood function.
P 的 distribution 在此似乎沒有任何 role.
 
Assuming q(θ;x) = c exp(- (y-θ•x)^2)
就會得到 square loss function.

 

 

Example 2:  Fisher Information Metric = KL 的 Hessian (沒有負號)

Kullback-Leibler divergence 和 Fisher Information 有直接的關聯。參考 wiki Kullback-Leibler divergence.

假設 P and Q 是非常接近的兩個 PDFs given by P = P(θ), Q = P(θo).  θ 非常接近 θo.  θ 是 k-dimension.

可以做 Taylor expansion

P(θ) = P(θo) + Δθ • ∇P(θo) + 2nd order and higher error terms

Δθ 是一個 k dimension vector.  (Δθ)j = (θ-θo)j ;  

同樣 ∇P(θo) 也是 k-dim vector.  包含  ∂P/∂θj(θo)  j = 1, 2, .., k

 

再來用到 KL(P||Q) ≥ 0 的特性

KL(P||Q) = Ep[ log(P/Q) ] 

因為 KL(P(θo) || P(θo) ) = 0  and KL(P(θ) || P(θo) ) ≥ 0  

所以 KL 在 θo 的 1st order 導數為 0, 在 minimum point 可以做 2nd order 展開。是個 convex function.

NewImage

The above equation is equivalent to E[score] = E[s(θ; x)] = 0 when θ → θo

所以 KL 在 θo 的 Taylor expansion (2nd order) 就變成

NewImage

 Hessian of KL 是 Fisher Information.  (不用加負號) and positive semi-definite matrix.

 

以上的結論和 MLE 毫無關係。

How to prove MLE has the minimum variance?  Rao 在 1963 証明 MLE is efficient (minimum variance) in the class of consistent and uniformly asymptotically normal (CUAN) estimators.

 

Some additional notes:

In general:    KL(P(θ)||P(θo)) ≠ KL(P(θo)||P(θ))  if θ ≠ θo

所以 KL 無法當成 “true metric”, 因為不滿足交換律。也不滿足三角不等式。

 

但在無窮小時,下列等式成立:

lim(θ->θo)  KL(P(θ)||P(θo)) = KL(P(θo)||P(θ)) = 0 

lim(θ->θo)  ∂/∂θ KL(P(θ)||P(θo)) = ∂/∂θ KL(P(θo)||P(θ)) = 0   (斜率 or gradient vector 為 0)

lim(θ->θo)  ∂^2/∂θ∂θ’ KL(P(θ)||P(θo)) = ∂^2/∂θ∂θ’ KL(P(θo)||P(θ)) ≧ 0   (曲率 ≧ 0 or tensor positive semi-definite matrix)

 

從 KL divergence 的展開可以明顯看到和 Information 和 2nd order statistics (variance) 的關係。

Information 基本上和 mean 是沒什麼關係。和 variance roughly 有直接的關係。

Shannon Information 和 variance 是正相關。 Fisher Information 和 variance 是反相關 ( I(θ) ~ 1/varaince)

 

Example 3:  Prior Distribution and Posterior Distribution

https://bayesian.org/sites/default/files/JKGosh.pdf

http://people.eecs.berkeley.edu/~jordan/courses/260-spring10/lectures/lecture8.pdf

P 是 prior distribution.  Q 是 posterior distribution.  

KL(P||Q) 就是 measure the expected number of extra bits required to code samples from P using a code optimized for Q rather than the code optimized for P.

也就是用 Q 來近似 P 時所 loss information bit.   更清楚的定義如下。

NewImage

這是在 given 一個 x 之下的 divergence measure.   最終我們希望得出的是 integrate over 所有 m(x) (marginal distribution of x) 的 average divergence measure J(p ).   J(p ) 就是我們希望找到的 prior distribution, Jeffrey prior!

NewImage

m(x) = ∫ p(x|θ) p(θ) dθ

有點複雜。請參考 reference. 

 

 

 

 

Appendix

 

Parameter Estimation: MLE (Optimization) and Bayesian Inference

前面提到的 X, Y 都是 random variables.  藉著 X, Y 之間的 statistics (1st or 2nd order) 可以從 Y 來 estimate X.

另一大類問題是 parameter estimation 問題。基本上 X ~ f(x; θ)  θ 是要 estimated parameter(s).

有兩派理論:  Parameter optimization 和 Bayesian inference

 

先說 MLE  缺點:

(1) No embedded prior  ->  addressed by Bayesian

(2) Need a probability model (Bernoulli, Normal, Exponential)  –>  addressed by descriptive statistics

 

Parameter optimization treats θ as a deterministic parameter, i.e.  var(θ) ~ 0.

Probability density distribution (PDF) 或是 probability mass function (PMF):  f(x; Θ) ≣ L(θ; X)

f(x; Θ) 可以視為 PDF/PMF function of x given Θ.  或是 L(θ; X) likelihood function of θ given X.

最直觀的 parameter optimization by Fisher et al.  

就是 max_θ L(θ;X) => Maximum Likelihood Estimation (MLE) 或是

max_θ log(L(θ;X))  => Maximum Log Likelihood Estimation

i.e.  ∂L(θ;X)/∂θ = 0

實務上會重複作多次實驗:  X1, X2, X3, … Xn,  i.i.d,  X = (X1, X2, …, Xn)

∂[ log( L(θ;X1)* L(θ;X2) * … * L(θ;Xn) )]/∂θ = 0

 

Fisher 厲害之處在 explore f(x;Θ) or L(θ;X) 更多的統計特性

首先定義 score V  (given observed X) as the gradient w.r.t. θ of the log likelihood function 

V ≣ V(θ; X) = ∂ LL(θ; X) / ∂θ = ∂ log L(θ; X) / ∂θ = 1/L(θ;X) * ∂L(θ;X)/∂θ

顯然這是 MLE 的延伸。MLE 基本上是設定 gradient wrt θ 為 0. i.e. V = 0 得到最佳的 θ given oberved X.

 

實務上我們可以想像同時做很多次的實驗得到多個不同的 X  (每一個 是一串 i.i.d. sequence).

X_1 = (X_1 1, X_1 2, …. X_1 n)

X_2 = (X_2 1, X_2 2, …. X_2 n)

and so on …

 

如果從 stochastic process X(t) 來類比可能比較清楚。

可以想像同時有無限多 random noise generator X_1(t), X_2(t), X_3(t) ….

每一個 X_1 or X_2 or .. 就像一個 random noise generator. 

(1) Ergodic (in time domain)

對某一個 X_k 而言的 time sequence (1, 2, …, n) 或是 observed outcome.  當 n 夠大時,而且 θ 是定值。

從 Ergodic property, observed outcome sequence resembles the PDF of X 

(2) Probabilistic (in space domain)

對一個固定的 time stamp 而言  X_1, X_2, … X_∞  produces PDF of the X as a random variable (not a observation!)

 

再回到 V(θ; X).  對於不同的 X (observed sequence) set V(θ; X) = 0 都會得到一個對應的 optimal θ, θmle.

一個直覺的問題是 θmle 的統計特性為何?  主要是 θmle 的 time-average mean 和 time-average variance.

Time-average mean:  <θ> = 1/n ∑ Xi

Time-average variance: <(θ-<θ>)^2> = 1/n ∑(Xi – <θ> )^2

 

在回答這個問題之前。我們可以先找另一個參數, score V(θ; X) 在很多 時的統計特性。 

乍看之下很奇怪 V(θ; X) 應該是 function of θ.  是一個 deterministic function given observed X.  為何有統計特性?

就是假設有 ∞ 多個 求 V 的統計特性, mean and variance given θ.

E(V) = ∫ ∂log L(θ; X)/∂θ f(x; θ) dx  = ∫ 1/f(x; θ) ∂f(x;θ)/∂θ f(x; θ) = ∂ ∫ f(x; θ) dx /∂θ = 0

這是非常有趣的結果。E(V)=0 居然不 depends on θ.  或是不論 θ 為何,E(V) = 0!!

 

看一些 example.  假設 θ 是 Bernoulli distribution parameter.

NewImage

MLE  V = 0  =>  θmle = A / (A+B)

If θ~0,   X ≃ (0, 0, 0, ….  0)   f(x, θ) = n!/[x! (n-x)!] θ^x (1-θ)^(n-x) ~ θ^x   where n = A+B  

V = [A/θ – (n-A)/(1-θ)] ~ A/θ-(n-A)  

可以合理假設做多次實驗,θ的平均值趨近 θmle = A/(A+B) = A/n

E(V) ~ A/θ – (n-A) ~ n – n + A = A ~ 0  可以 check E(V) ~ 0.

 

更有趣的問題是 V 的 variance?  也就是 Fisher information.

var(V) = E(V^2) – E(V)^2 = E(V^2)

V^2 = [A/θ – B/(1-θ)]^2 ~ (A/θ)^2 – 2AB/[θ(1-θ)] + B^2 = (A/θ)^2 – 2An/θ + n^2

同樣假設 θmle = A/n   V^2 = n^2 – 2n&2 + n^2 = 0!!  顯然是因為近似的精度不夠!

 

Fisher 的功力此時就展現。他用 2nd order derivative 可以得到 E(V^2) = -1 * E(2nd order derivative of LLE)

 -1* ∂V/∂θ = A/θ^2 + B/(1-θ)^2

同樣 I(θ) = E(-1* -1* ∂V/∂θ) = E(A/θ^2 + B/(1-θ)^2) ~ n^2/A + n = n^2/A  –> ∞

 

另外一個角度是用 θ 來看。θ 的平均值 <θ> ~ θmle.  

如果稍為改變 θ, δθ,  <θ> ~ θmle.  也就是 θmle 是 stationary wrt to θ.  這是 MLE 的 optimization 的條件。

θmle 附近的 1st order derivative is 0.   但 Fisher information 是 2nd order derivative, 也就是 curvature (曲率).

我們可能更關心 θ 的 variance <(θ – <θ>)^2>, 這和 Fisher information 有關係嗎 ? 當然!

可以參考 Wiki MLE https://en.wikipedia.org/wiki/Maximum_likelihood_estimation

Fisher 厲害之處就是証明 θ 的 time-average variance 就是 I^(-1), Fisher information 的倒數!

所以 Fisher information 愈大,variance 就愈小。也就是 θmle 就愈準。Not exactly?

it should normalize to θmle.  Otherwise, if θ is close to 0 or 1, it will squeeze the variance?

NewImage

 

 

 

 

Advertisements