본문 바로가기

데이터 과학/확률론

최대 우도 추정법(MLE)

사전 지식 : 가능도(Likelihood)

 

Contents

- 최대 우도 추정(MLE)

- 최대 우도 추정법의 일반적인 계산방법

- 정규 분포(Normal Distribution)에서의 최대 우도 추정법

- 이항 분포(Binomial Distribution)에서의 최대 우도 추정법


최대 우도 추정(MLE)

최대우도추정은 확률 분포에서 (데이터를 이용해) 가능성을 최대화하는 모수를 추정하는 방법이다.

(Find an optimal way to fit a distribution to the data) 즉, 데이터를 잘 설명하는 모델을 찾고자 하는 것이다.

 

왜 모델을 찾으려 할까? 데이터를 일반화함으로써 데이터를 잘 이해할 수 있고 예측하는 것이 가능하기 때문이다.

 

e.g. 데이터가 (정규/지수/감마) 분포를 따른다고 했을 때, 주어진 표본을 이용해 평균과 분산을 추정할수 있다.

 

딥러닝데이터로 부터 모델을 찾는다는 점에서 최대 우도 추정과 취지는 같으나 최대 우도 추정 방법에서 계산법인

Loglikelihood 대신 점진적 방법인 Gradient Descent와 BackPropagation 알고리즘을 이용한다.

 

다시 최대 우도 추정으로 돌아와서, 최대 우도 추정 방법론이 말이 되는 이유는 '사건이 일어날 확률 p가 누구에게나 동일할 것'이라는 가정 때문이다.

 

예를 들어, 어느 누구든 항아리에서 검은색 구슬을 뽑을 확률은 p로 동일할 것으로 가정하기 때문이다. 

 

문제1)

항아리에 검은 구슬, 흰 구슬이 섞여 있고 총 100개의 구슬이 있는데 10번 추출해보니 검은 구슬이 4번, 흰 구슬이 6번 추출되었다. 그렇다면 항아리에는 몇개의 검은 구슬이 있었을까?

 

풀이)

p = (검은 구슬 수 / 전체 구슬 수)라는 확률 변수를 두고, 첫번째 구슬을 꺼낸 사건이 두번째 구슬을 꺼낸 사건에 영향을 미치지 않는다고 가정한다. 이때 검은 구슬 4번, 흰 구슬 6번 뽑을 확률은  $ p^4(1-p)^6 $  이다. 

이때, 10개의 구슬에서 4개의 검은 구슬이 뽑히는 경우의 수는 총 210($_{10}C_4$) 이다. 

$$  _{10}C_4 p^4 (1-p)^{10-x} $$

 따라서, 위의 실을 모델로 두고 위의 모델을 가장 잘 설명하는(argmax) 확률 $\widehat{p}$ 를 구한다. 

$$ \widehat{p} = \text{$\underset{p}{argmax}$}\ _{10}C_4 p^4 (1-p)^{10-x} $$

Log likelihood를 취해서 p에 대해 미분을 하여 기울기가 '0'인 지점을 찾는다.

$$ logf(p) = logC + 4logp + 6log(1-p) $$

$$ f'(p) =  \frac{4}{p} - \frac{6}{1-p}  = 0 $$

$$ p = 0.4 $$ 가 된다. 


최대 우도 추정법의 일반적인 계산방법

(1) Likelihood식(모든 데이터 N개는 독립적이라고 가정)
(2) Log를 취해줌으로서 Loglihood로 만든다.
(3) 미분을 취해서 기울기가 '0'이 되는 지점을 찾는다.

 

정규 분포(Normal Distribution)에서의 최대 우도 추정법

- 아래 정규 분포 확률분포 식을 위의 (1)의 $ p(x_n|\theta) $ 대신 집어 넣어 평균과 분산에 대해 각각 미분한다.

이항 분포(Binomial Distribution)에서의 최대 우도 추정법

- 아래 이항 분포 확률분포 식을 위의 (1)의 $ p(x_n|\theta) $ 대신 집어 넣어 평균과 분산에 대해 각각 미분한다.

 


출처)

www.youtube.com/watch?v=sOtkPm_1GYw

https://www.youtube.com/watch?v=XepXtl9YKwc&list=RDCMUCtYLUTtgS3k1Fg4y5tAhLbw&start_radio=1 

 

반응형