하 떨려 드디어 면접공부 의미잇어짐ㅜ 그러나 기쁨도 잠시.. 정신차리고 학회 일정 소화 & 면접 공부 해야 합니다ㅜ
Probability Distribution
- Poisson: 이산 확률 분포 중 하나로, 일정한 시간 동안 특정 사건이 발생하는 횟수에 대한 확률 분포. 이때 파라미터 λ는 그 시간 동안 사건이 일어나는 평균 횟수를 의미한다. 예를 들어, 톨 게이트에 트럭이 지나가는 사건을 A라고 한다면, 사건 A가 10분 동안 몇 번 일어나는지를 확률 분포로 나타낼 수 있다! 평균 세 대가 지나간다면 λ=3임.
- Binomial: 두 가지의 상호배타적인 결과가 있는 사건을 여러 차례 독립시행 하는 경우의 확률 분포. Sucess/Failure의 횟수를 확률분포로 나타낼 수 있다.
- Geometric: 베르누이 시행을 반복했을 때 처음 그 사건이 일어나는 게 몇 번째 시행인지에 대한 확률분포. 주사위를 계속 던질 때 3의 배수가 몇 번째 시행에서 처음 나오는지 등등을 예시로 들 수 있을 거 가틈!
~~여기까지가 이산확률분포~~
- Normal: exp(−(x−μ)2σ√2π) 꼴로 표현되어지는, 평균을 중심으로 대칭인 종 모양의 분포. 대부분의 데이터가 이러한 분포를 띠어서 가장 많이 활용되는 분포임.
- Gamma Distribution: factorial function을 복소수 영역으로 확장한 gamma function을 사용해 나타낸 확률 분포. 파라미터로 α와 β를 활용하는데 각각 shape, scale이라고 부르고, 의미하는 바는.. α번째의 사건이 일어나기까지 걸리는 시간을 나타내는 연속확률분포! Poisson이나 exponential dist.의 켤레 사전 분포로 많이 활용된다고도 합니다.
- Chi-Square Distribution: 주로 가설 검증에서 활용되는 확률분포로 자유도 k를 파라미터로 가지며, 귀무 가설과 대비하였을 때 대립가설이 얼마나 통계적 유의미성을 갖는지 확인하는 데 활용됩니다. 귀무가설과 대립가설로부터 집단의 분포를 바탕으로χ2을 계산할 수 있는데, 이를 바탕으로 P(X>χ2)를 p-value로 설정하여 통계적 유의미성을 확인할 수 있어요.
켤레 사전 분포 (Conjugate Prior)
Posterior가 Prior와 같은 형태의 확률분포를 가질 때 (the same distribution family) Prior를 Posterior의 켤레사전분포라고 함!
자유도(the degrees of freedom)
표본 집단에서, 모집단에 대한 정보를 알아낼 수 있는 독립적인 자료의 수라고 위키백과에서 말하고 있네요 ㅇㅅㅇ
- t-Dist. : 통계적 추정에서, 모집단의 표준편차를 알 수 없을 때 z-score로 추정하는 대신 t-분포의 t-score를 이용합니다.
Estimation
모집단을 전수조사를 하는 것이 그 집단을 파악하는 가장 정확한 방법이겠지만, 보통 그러기가 낫쏘이지 하니까 표본 추출로 조사를 합니다. 이때 추출된 표본들에 대한 평균과 표준편차를 계산해 통계적 추정에 활용합니다. 관련된 개념들을 알아보도록 하지요.
- Law of Large Numbers: (왠지 CLT 다루기 전에 말해야 할 거 같았음)
- Central Limit Theorem: (1) 독립시행으로 추출한 (2) 똑같은 확률분포를 가지는 (3) 그 분산이 유한한 표본들의 평균 ˉX는, normalize했을 때 표준정규분포를 따른다는 게 요지입니다. CLT에 근거한다면, 모집단의 표준편차를 알고 있을 경우 정규화를 해서 Z-score에 따라 추정을 할 수 있습니다.
- Confidence interval & Confidence score: 신뢰도가 의미하는 바는,,, 표본을 여러 차례 추출했을 때 각각의 오차범위 안에 모평균이 실제로 위치할 확률이 얼마나 되는지에 대한 것임! 예를 들어 신뢰도가 95%라면, 100번 표본조사를 진행했을 때 각 표본과 그 오차범위 안에 모평균이 위치하는 경우가 95번쯤 된다는 뜻이에요.
- Z-score, t-score: 신뢰구간을 찾기 위해 정규화를 하는데, 이때 모집단의 표준편차를 알면 정규분포를 이용하고 아니면 t분포를 이용한다고 하는군요.
- Unbiased/biased estimator: 표본의 파라미터 추정값의 기댓값 (the expectation of the estimator)이 모집단과 같으면 이를 불편추정량(unbiased estimator)라고 하고, 그렇지 않으면 편의추정량(biased estimator)이라고 한다! 대표적으로 표본분산이 편의추정량인데, 그래서 불편추정량으로 맞춰주기 위해 sample variance 계산을 할 때 표본의 크기인 n 대신 n−1로 나눠줌. 또, MLE로 찾은 μMLE는 불편추정량, 이를 바탕으로 계산한 σ2MLE는 편의추정량인데, 이때도 데이터셋의 크기로 나눠주는 작업을 거침!
ㅋㅋ 이렇게 대충 봐도 됨?
Hypothesis Testing
위의 내용은 이걸 위한 빌드업이라고 생각해도 과언이 아님. 전반적인 flow는, 귀무가설(null hypothesis) & 대립가설(alternative hypothesis) 두 가지를 설정하고, 데이터의 통계에 근거했을 때 significance level —보통 α로 표기— 보다 p-value가 작으면 통계적으로 유의미하다고 판단, 대립가설을 채택한다.
**여기서 <Positive: 대립가설이 참 or 통계적 유의미성이 존재함> 요거 잊지 말기~
- H0, Ha: 귀무가설, 대립가설. 각각 status quo & 이것과 대립되는, 따라서 우리가 evidence를 통해 증명하고자 하는 가설.
- Type 1/2 error:
(1) 사실은 귀무가설이 참인데 리젝 해버릴 경우
= 통계적으로 유의미하지 않은(=우연찮은) 결과인데 유의미하다고 판단해버릴 경우
= False Positive
(2) 사실은 귀무가설이 거짓인데 기각 못하는 경우
= 통계적으로 유의미한데 유의미하지 않다고 판단해버릴 경우
= False Negative - Significance Error: type 1 error가 발생할 확률. 대립가설을 채택하는 threshold로서 기능함
- P-value: 귀무가설이 참일 때, 우리가 가지고 있는 데이터가 관측될 최소한의 확률. p-value가 0.04라는 건 귀무가설이 참일 때 현재 데이터가 최대 4%의 확률로 관측될 거라는 뜻임ㅇㅇ
⇒ 그래서 P-value가 significane level보다 작다는 뜻은, 우리가 잘못 판단할 확률보다 귀무가설이 데이터를 뒷받침하지 못할 가능성이 크다는 걸 의미합니다.
'math4ai > Probability & Statistics' 카테고리의 다른 글
That's a Wrap! - Prob&Stat (0) | 2024.08.09 |
---|