본문 바로가기
math4ai/Probability & Statistics

M4AI) Probability & Statistics

by 잼민ai 2024. 8. 9.

하 떨려 드디어 면접공부 의미잇어짐ㅜ 그러나 기쁨도 잠시.. 정신차리고 학회 일정 소화 & 면접 공부 해야 합니다ㅜ

 

Probability Distribution

  • Poisson: 이산 확률 분포 중 하나로, 일정한 시간 동안 특정 사건이 발생하는 횟수에 대한 확률 분포. 이때 파라미터 $\lambda$는 그 시간 동안 사건이 일어나는 평균 횟수를 의미한다. 예를 들어, 톨 게이트에 트럭이 지나가는 사건을 A라고 한다면, 사건 A가 10분 동안 몇 번 일어나는지를 확률 분포로 나타낼 수 있다! 평균 세 대가 지나간다면 $\lambda=3$임.
  • Binomial: 두 가지의 상호배타적인 결과가 있는 사건을 여러 차례 독립시행 하는 경우의 확률 분포. Sucess/Failure의 횟수를 확률분포로 나타낼 수 있다.
  • Geometric: 베르누이 시행을 반복했을 때 처음 그 사건이 일어나는 게 몇 번째 시행인지에 대한 확률분포. 주사위를 계속 던질 때 3의 배수가 몇 번째 시행에서 처음 나오는지 등등을 예시로 들 수 있을 거 가틈!

~~여기까지가 이산확률분포~~

  • Normal: $\exp\left({-\frac{(x-\mu)^2}{\sigma\sqrt{2\pi}}}\right)$ 꼴로 표현되어지는, 평균을 중심으로 대칭인 종 모양의 분포. 대부분의 데이터가 이러한 분포를 띠어서 가장 많이 활용되는 분포임.
  • Gamma Distribution: factorial function을 복소수 영역으로 확장한 gamma function을 사용해 나타낸 확률 분포. 파라미터로 $\alpha$와 $\beta$를 활용하는데 각각 shape, scale이라고 부르고, 의미하는 바는.. $\alpha$번째의 사건이 일어나기까지 걸리는 시간을 나타내는 연속확률분포! Poisson이나 exponential dist.의 켤레 사전 분포로 많이 활용된다고도 합니다.
  • Chi-Square Distribution: 주로 가설 검증에서 활용되는 확률분포로 자유도 $k$를 파라미터로 가지며, 귀무 가설과 대비하였을 때 대립가설이 얼마나 통계적 유의미성을 갖는지 확인하는 데 활용됩니다. 귀무가설과 대립가설로부터 집단의 분포를 바탕으로$\chi^2$을 계산할 수 있는데, 이를 바탕으로 $P(X>\chi^2)$를 p-value로 설정하여 통계적 유의미성을 확인할 수 있어요.
더보기

켤레 사전 분포 (Conjugate Prior)

Posterior가 Prior와 같은 형태의 확률분포를 가질 때 (the same distribution family) Prior를 Posterior의 켤레사전분포라고 함!

 

자유도(the degrees of freedom)

표본 집단에서, 모집단에 대한 정보를 알아낼 수 있는 독립적인 자료의 수라고 위키백과에서 말하고 있네요 ㅇㅅㅇ

  • t-Dist. : 통계적 추정에서, 모집단의 표준편차를 알 수 없을 때 z-score로 추정하는 대신 t-분포의 t-score를 이용합니다.

Estimation

모집단을 전수조사를 하는 것이 그 집단을 파악하는 가장 정확한 방법이겠지만, 보통 그러기가 낫쏘이지 하니까 표본 추출로 조사를 합니다. 이때 추출된 표본들에 대한 평균과 표준편차를 계산해 통계적 추정에 활용합니다. 관련된 개념들을 알아보도록 하지요.

  • Law of Large Numbers: (왠지 CLT 다루기 전에 말해야 할 거 같았음) 
  • Central Limit Theorem: (1) 독립시행으로 추출한 (2) 똑같은 확률분포를 가지는 (3) 그 분산이 유한한 표본들의 평균 $\bar{X}$는, normalize했을 때 표준정규분포를 따른다는 게 요지입니다. CLT에 근거한다면, 모집단의 표준편차를 알고 있을 경우 정규화를 해서 Z-score에 따라 추정을 할 수 있습니다.
  • Confidence interval & Confidence score: 신뢰도가 의미하는 바는,,, 표본을 여러 차례 추출했을 때 각각의 오차범위 안에 모평균이 실제로 위치할 확률이 얼마나 되는지에 대한 것임! 예를 들어 신뢰도가 95%라면, 100번 표본조사를 진행했을 때 각 표본과 그 오차범위 안에 모평균이 위치하는 경우가 95번쯤 된다는 뜻이에요.
  • Z-score, t-score: 신뢰구간을 찾기 위해 정규화를 하는데, 이때 모집단의 표준편차를 알면 정규분포를 이용하고 아니면 t분포를 이용한다고 하는군요.
  • Unbiased/biased estimator: 표본의 파라미터 추정값의 기댓값 (the expectation of the estimator)이 모집단과 같으면 이를 불편추정량(unbiased estimator)라고 하고, 그렇지 않으면 편의추정량(biased estimator)이라고 한다! 대표적으로 표본분산이 편의추정량인데, 그래서 불편추정량으로 맞춰주기 위해 sample variance 계산을 할 때 표본의 크기인 $n$ 대신 $n-1$로 나눠줌. 또, MLE로 찾은 $\mu_{MLE}$는 불편추정량, 이를 바탕으로 계산한 $\sigma^2_{MLE}$는 편의추정량인데, 이때도 데이터셋의 크기로 나눠주는 작업을 거침!

ㅋㅋ 이렇게 대충 봐도 됨?

 

Hypothesis Testing

위의 내용은 이걸 위한 빌드업이라고 생각해도 과언이 아님. 전반적인 flow는, 귀무가설(null hypothesis) & 대립가설(alternative hypothesis) 두 가지를 설정하고, 데이터의 통계에 근거했을 때 significance level —보통 $\alpha$로 표기— 보다 p-value가 작으면 통계적으로 유의미하다고 판단, 대립가설을 채택한다.

**여기서 <Positive: 대립가설이 참 or 통계적 유의미성이 존재함> 요거 잊지 말기~

  • $H_0$, $H_a$: 귀무가설, 대립가설. 각각 status quo & 이것과 대립되는, 따라서 우리가 evidence를 통해 증명하고자 하는 가설.
  • Type 1/2 error:
    (1) 사실은 귀무가설이 참인데 리젝 해버릴 경우 
        = 통계적으로 유의미하지 않은(=우연찮은) 결과인데 유의미하다고 판단해버릴 경우
        = False Positive
    (2) 사실은 귀무가설이 거짓인데 기각 못하는 경우
        = 통계적으로 유의미한데 유의미하지 않다고 판단해버릴 경우
        = False Negative
  • Significance Error: type 1 error가 발생할 확률. 대립가설을 채택하는 threshold로서 기능함
  • P-value: 귀무가설이 참일 때, 우리가 가지고 있는 데이터가 관측될 최소한의 확률. p-value가 0.04라는 건 귀무가설이 참일 때 현재 데이터가 최대 4%의 확률로 관측될 거라는 뜻임ㅇㅇ

⇒ 그래서 P-value가 significane level보다 작다는 뜻은, 우리가 잘못 판단할 확률보다 귀무가설이 데이터를 뒷받침하지 못할 가능성이 크다는 걸 의미합니다.

728x90

'math4ai > Probability & Statistics' 카테고리의 다른 글

That's a Wrap! - Prob&Stat  (0) 2024.08.09