본문 바로가기

데이터 과학/확률론

Reservoir Sampling Q. 전체 모집단의 갯수(n)를 알지 못하는 상황에서 편향 없이 1개를 샘플링하면 각 샘플링의 확률은 1/n이 된다. 어떻하면 이를 코드로 구현할 수 있을까? https://www.youtube.com/watch?v=A1iwzSew5QY 위의 영상에 방법이 나와 있다. 모자 n개가 있고, i 번째 모자를 최종적으로 쓰고 있으려면 (i 번째 모자를 쓰고), (i+1번째 모자를 쓰지 않고), (i+2번째 모자를 쓰지 않고)... (n번째 모자를 쓰지 않으면 된다) 즉, (i번째 모자를 최종적으로 쓰고 있을 확률) = (i 번째를 선택할 확률) = (1 / i) * (1 - (1/(i+1))) * (1 - (1/(i+1))) ... *(1 - 1/(n)) 이 식을 정리하면 1 / n 이 된다. 따라서, 코드로.. 더보기
Scipy 함수 정리 Scipy 제공 확률 분포 목록 확률 분포 메소드 scipy.stats.norm.pdf(x, loc=0, scale=1) - pdf는 scipy.stats.norm의 여러 매소드 중 하나(정규 분포의 특성을 모아둔 듯 하다) - 정규 연속 확률 밀도함수 생성 - loc (= mean), scale (= std) - $ f(x) = {exp(-x^{2}/2) \over \sqrt{2\pi} } $ from scipy.stats import norm norm.pdf(x, loc, scale) # Same as norm.pdf(y) / scale # y = (x - loc) / scale (계속 정리...) ※ 이항분포 : 연속된 n번의 독립 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포 https.. 더보기
결합 확률 분포, 주변 확률 분포 (Joint / Marginal Probability Distribution) Contents 결합 확률 분포(Joint Probability Distribution) 결합 확률 질량 함수(Joint PMF) 결합 확률 밀도 함수(Joint PDF) 주변 확률 분포(Marginal Probability Distribution) 주변 확률 질량 함수(Marginal PMF) 주변 확률 밀도 함수(Marginal PDF) 조건부 확률 분포(Marginal Probability Distribution) 조건부 확률 질량 함수(Conditional PMF) 조건부 확률 밀도 함수(Conditional PDF) ※ 주변 확률 분포는 두개의 변수로 이루어진 결합 확률 분포를 하나의 변수로 표현하기 위한 방법이다. ※ 주변 확률 분포는 결합 확률 분포와 대립되는 개념이 아니다! ▶ 결합 확률 .. 더보기
다변량 가우시안 분포(Multivariate Gaussian Distribution) 1. Multivariate Gaussian Distribution 2. Multivariate Gaussian Distribution 특징 3. Multivariate Gaussian Distribution의 활용 4. 코드 1. Multivariate Gaussian Distribution - 일차원의 정규 분포를 다차원으로 확장 시킨 개념 - 평균값을 중심으로 군집화 되어 있는 '상관 관계있는' 랜덤 변수 집합을 설명하는데 자주 사용된다. - $N(\mu, \Sigma)$ - $\mu \in R^k$ : 위치 - $\Sigma \in R^{k \times k} $ : 공분산 정리하자면, K차원의 랜덤벡터 $ X = (X_1, ... , X_k)^T $ 의 다변량 정규 분포는 다음과 같이 표현할 수 .. 더보기
Likelihood(가능도) ▶ Likelihood - 확률분포의 모수($\theta$)가 어떤 확률 변수의 표본과 일관되는 정도를 나타내는 값이다. --> 표본(x)을 설명할 수 있으려면, 모수($\theta$)는 어떻게 되어야 하는지 가능성을 나타낸다. - 구체적으로, 표본에 대한 모수의 Likelihood는 이 모수를 따르는 분포가 주어진 관측값에 대하여 부여하는 확률이다. -->표본(x)가 주어졌을때 이를 설명할 수 있는 모수($\theta$)의 Likelihood는 이 모수를 따르는 분포가 주어진 관측값(X = x)에 대하여 부여하는 확률이다. Ex1) 동전을 던져 앞면(H)이 나오는 확률을 $p_H$라 하자. 만약 $p_H = 0.5$일때, HH(앞면 두번) 나올 확률은 (곱의 법칙에 의해) 0.25이다(수식 오른쪽). .. 더보기
최대 우도 추정법(MLE) 사전 지식 : 가능도(Likelihood) Contents - 최대 우도 추정(MLE) - 최대 우도 추정법의 일반적인 계산방법 - 정규 분포(Normal Distribution)에서의 최대 우도 추정법 - 이항 분포(Binomial Distribution)에서의 최대 우도 추정법 최대 우도 추정(MLE) 최대우도추정은 확률 분포에서 (데이터를 이용해) 가능성을 최대화하는 모수를 추정하는 방법이다. (Find an optimal way to fit a distribution to the data) 즉, 데이터를 잘 설명하는 모델을 찾고자 하는 것이다. 왜 모델을 찾으려 할까? 데이터를 일반화함으로써 데이터를 잘 이해할 수 있고 예측하는 것이 가능하기 때문이다. e.g. 데이터가 (정규/지수/감마) 분포를.. 더보기
Gaussian Mixture Model(GMM) ※ Gaussian Mixture Model(가우시안 혼합 모델)을 알기전에 먼저 Multivariate Gaussian Distribution(다변량 가우시안 분포)을 먼저 알아야 한다. 1. Gaussian Mixture Model(GMM) 정의 2. GMM을 이용한 분류(Classification) 3. EM 알고리즘을 이용한 GMM 학습 (EM : Expectation - Maximization) 4. 코드 1. Gaussian Mixture Model(GMM) 정의 혹은 식을 다음과 같이 표현하기도 한다. $ p(x) = \Sigma_{k=1}^K{P(z_k)P(x|z)} $ - 멀티모달(Multi-modal) 분포를 설명하기 위해 쓰인다. - K는 가우시안 분포의 갯수(하이퍼 파라미터) - $.. 더보기