Tag: statistics

Komputasi Statistik

Secara umum, permasalahan utama komputasi statistik dibagi menjadi dua, optimization dan integration; mewakili dua mazhab yang ada di ilmu statistik, frequentist dan bayesian.

1. Optimization untuk Frequentist Statistics

Permasalahan komputasi di frequentist statistics biasanya berupa pencarian estimasi parameter. Teknik esimasi yang paling banyak digunakan yaitu Maximum Likelihood Estimation (MLE), dimana parameter yang mempunyai nilai likelihood tertinggilah yang dipilih sebagai estimasi. Untuk model sederhana seperti Linear Regresion, solusi dari MLE dapat dihitung secara exact melalui manipulasi matrix (dikenal juga sebagai Least Square Estimation). Akan tetapi untuk sebagian besar model statistik, seperti Logistic Regression, Generalized Linear Models, ARIMA, dll; tidak ada metode eksak untuk mendapaiakan nilai parameter MLE.

Disinilah numerical optimization mengambil peranan. Algoritma-algoritma optimization memulai dengan perkiraan parameter, kemudian secara iterative memperbarui perkiraan itu berdasarkan teorama dari kalkulus bahwa parameter yang mempunyai nilai MLE maksimum, memiliki nilai derivative nol. Metode Newton dan turunannya yang mana memanfaatkan informasi second derivative adalah diantara algoritma yang paling banyak dipakai untuk optimization. Algoritma Quasi Newton – BFGS adalah salah satu turunan dari metode Newton yang paling populer, dimana alih-alih menggunakan nilai eksak second derivative, BFGS melakukan approksimasi terhadap nilai tersebut.

2. Integration untuk Bayesian Statistics

Di mahzab Bayesian Statistics, masalah komputasi utama adalah mencari summary (contohnya: rata-rata, varians, peluang event tertentu) dari posterior distribution dari parameter. Bayesian Statistics memperlakukan parameter sebagai continuous random variable, sehingga untuk mencari summary dari parameter diperlukan integration. Seringkali proses integration tidak dapat dilakukan secara eksak, sehingga diperlukan teknik lain. Metode numerical integration biasa seperti Riemann Sum juga tidak cocok diterapkan karena parameter biasanya berdimensi tinggi. Oleh karena itu, teknik Monte Carlo integration yang berdasarkan sampling algorithm menjadi pilihan. Algoritma yang sering dipakai untuk sampling diantaranya adalah Gibbs Sampling dan Metropolis-Hastings.


ref: Computational Statistics book by Givens and Hoeting