Bayesian Interpretation of Overfit – Optimization is the root of all evil in statistics

by allenlu2007

Bayesian’ Belief:  Optimization is the root of all evil in statistics.

Why?  

In estimation :  從 probability distribution 簡化成一個參數,丟掉所有其他 statistics. 

In prediction (or generalization or inference): Overfit!! 造成大的 out-sample error.

Optimization 最大的好處是可以 leverage 很多很好的算法,可以 tackle 大問題。

 

最近又開始在看 Bayesian probability/statistics/inference.  

之前在看 PGM (probability graph model) 覺得 Bayesian fit perfectly with PGM (主要是 DAG – directed acyclic graph).  產生的理論和數學非常漂亮。

比起 deterministic 的 neural network 理論要完整的多。

另外可以把 inference 和  learning 視為同一問題,也遠比 deterministic model 或是 maximum likelihood estimation 一致的多 (coherence)!

Bayesian inference 還有一個非常大的好處,就是沒有 overfitting 問題!!!  

因為在 deterministic machine learning 或是 MLE, 都是在找一個最佳值 (Optimization).  如果 parameter space 太大且 training data 不足,會產生 overfit problem.   但在 Bayesian inference 中, parameter 是 distribution based on prior information and observed data.  至終 parameter 也是 posterior distribution.  

當然如果有夠多的 training data, posterior distribution 會趨近 machine learning 或是 MLE 的值 with small variance.  

但如果是 parameter space 太大且 data 少,Bayesian 會如何?  首先在 parameter distribution estimation 得到是一個 distribution (finite variance), 也就是有 uncertainty.  因此在之後做 detection 時,得到的 prediction 也是一個 distribution (finite variance), 也就是結果也是有 uncertainty.   In summary, during learning the parameter has some uncertainty (finite in-sample error) ; therefore during prediction the outcome has some uncertainty (finite out-sample error).

比起 non-Bayesian, overfit 的結果是想找最佳唯一解 (very small in-sample error); 但會造成非常大的 prediction error (very large out-sample error)!!!

在 Overfit 情況下:

Bayesian:  finite in-sample error –> finite out-sample error

Non-Bayesian: very small in-sample error –> very large out-sample error  (high variance)

 

Bayesian Inference 的問題

但之後想要應用在實際的問題就發生問題。(i) 第一是除了一些簡單的 graph 如 chain (hidden Markov model) 或者 junction tree 之外。都很難解或是 simulation. 就算是有一些 sampling algorithm 或是直接用 MCMC, 需要的 computation 都很大只能用在小 scale 的問題上。

(ii) 另外除了 Gaussian distribution 外,其他的 probability distribution 就更難處理,即使 simulation 也很困難。

比起 deep learning 或是其他 machine learning 技巧,多半有相當好用的 optimization technique.  Bayesian inference over PGM 在實用上差很多。除了一些小 scale 問題,大多很難應用。

Bayesian inference brute force:  MCMC

Some sampling techniques

Deep belief net (?)

Advertisements