Information Geometry

by allenlu2007

一切的開始是從上文討論 Fisher Information 和 Kullback-Leibler divergence.

Fisher Information and Kullback-Leilber Divergence

Fisher Information 給出一個有趣的結果

(θ; x) =  log f(x; θ) 是一個 log likelihood (PDF or PMF) with θ (Kx1) as parameter(s).  且多半是 concave function.

Score: s(θ; x) =  ∇θ (θ; x)   是一個 random variable (vector; Kx1), Gradient of log likelihood.

Hessian: H(θ; x) = ∇θ s(θ; x) = ∇θθ’ (θ; x)  是一個 random matrix (KxK), Hessian of log likelihood.

可以証明:

E [s(θ; x)] =  E[ ∇θ (θ; x) ] = 0

J(θ) = -E [H(θ; x)] =  -E[ ∇θθ’ (θ; x) ] = +E[ s(θ;x) s(θ;x)’] ≧ 0  (positive semi-definite matrix)

J(θ) 被稱為 Fisher Information Matrix.

以上兩個特性對 Information Geometry 非常重要。

J(θ) 對應的 Riemann manifold 的曲率 or tensor metric (PSD).

Gradient expectation 為 0 表示是 local 的 tangent space!   對每一個 point on manifold, 都有對應的 local coordinate, 以及 tangent space.

Gradient expectation of (θ1, θ2, … ) 為 0 對應的是 local coordinate 的 tangent space.

以一個 sphere surface 為例。傳統的 geometry 是用全知的觀點。就是有 global coordinate such as x2 + y2 + z2 = constant

或是 (r, θ, φ) with fixed r = 1.   根據 global 座標可以算出每一 local 點的 geometry features such as length, angle, gradient, curvature, area, etc.  這些特性有些會和 global coordinate 有關。舉例而言,斜率或 gradient 的結果在各 local 點都不同,在南北極的 gradient or 斜率為 0, 但在赤道的斜率是 ∞ 。但這有任何意義嗎? Sphere 每一點對於生活在上的螞蟻都是一樣的!

我們需要摒除全知的想法以及 global coordinate.  而用 local coordinate 來看待幾何特性。就像螞蟻如何看待所處的 2D manifold.  當然最後可以 connect 所有的 local (curved) plane 可以形成 global 的 atlas.   從這個觀點,每一 local 點都有自己的 tangent vector space.

Log likelihood (θ; x) 是 function (or random variable) of θ. 

對於一個 fixed θo, 對應的 (probabilistic) gradient 為 0; 對應的 (probablistic) curvature (曲率) 為正, 稱為 Fisher information, J.

另外從 Kullback-Leibler divergence 的 Taylor expansion

In general:    KL(P(θ)||P(θo)) ≠ KL(P(θo)||P(θ))  if θ ≠ θo

所以 KL 無法當成 “true metric”, 因為不滿足交換律。也不滿足三角不等式。

但在無窮小時,下列等式成立:

lim(θ->θo)  KL(P(θ)||P(θo)) = KL(P(θo)||P(θ)) = 0

lim(θ->θo)  ∂/∂θ KL(P(θ)||P(θo)) = ∂/∂θ KL(P(θo)||P(θ)) = 0   (斜率 or gradient vector 為 0)

lim(θ->θo)  ∂^2/∂θ∂θ’ KL(P(θ)||P(θo)) = ∂^2/∂θ∂θ’ KL(P(θo)||P(θ)) ≧ 0   (曲率 ≧ 0 or tensor positive semi-definite matrix)

J(θ) = -E [H(θ; x)] =  -E[ ∇θθ’ (θ; x) ] = +E[ s(θ;x) s(θ;x)’]  =  lim(θ->θo) ∇θθ’ KL(P(θo) || P(θ) )  ≧ 0  (positive semi-definite matrix)

Information Geometry and Manifold

NewImage

第一步是了解 manifold.  可以參考 Wiki Manifold. 

簡單來說: Manifold 的 local behavior 是 Euclidian space.  但 global 並不一定是。

1D manifold:  line, circle.   1D 非 manifold: 8 字 circle.  因為在中間的 local behavior 非 Euclidian line.

2D manifold: plane, cylinder, sphere, torus.   2D 非 manifold: ?

3D manifold: space, ball.  …?    Poincare conjecture.

再來是 Manifold of probability distribution.  如何定義 manifold?

Method 1:  θ (K-dimension) 為 base 的 manifold.  (Wrong concept!)

S = { p(x; θ) }    θ = (μ, σ) 可以視為 2D manifold 的座標。

By previous result, 每一個 θ 對應一個 (θ; x)  ( (θ;x) = log p(θ;x) )

E(∇μ) = 0;  E(∇σ) = 0;

E(∇μθθ’) ≧ 0  where θ, θ’ ∈ {μ, σ}

NewImage

Method 2:  p(x) 為 base 的 manifold. 

p(θ) = (p1, p2, p3)   and  p1(θ)+p2(θ)+p3(θ)=1

NewImage

For a given θ, 對應一個 2D 的 manifold (因為 ∑pi = 1 限制 1 DOF, degree of freedom).

KL for measure the neural nework instead of others

Advertisements