본문 바로가기

math4ai/Machine Learning and Deep Learning12

M4AI) That's a Wrap! — MLDL 출처: https://jrc-park.tistory.com/259🧐 Frequentist 와 Bayesian의 차이는 무엇인가? 빈도주의적 관점은 데이터-의존적인 방식으로 사건의 발생 빈도가 곧 확률이 된다는 입장이고, Bayesian은 belief라는 개념을 도입해 우리가 가설을 세우고 데이터로써 입증하여 belief를 갱신한다고 생각하는 입장임. 예를 들어, 혼자 있는 걸 좋아하고 진지하고 논리적인 사람이 개발자일 확률에 대해서는 frequentist라면 진지하고 논리적인 사람 중 개발자의 비율을 직접 데이터로 측정해 그게 곧 확률이라고 대답할 것임! 근데 베이지안은 prior(전체 인구 중 개발자의 비율), likelihood(저 성격의 사람이 개발자일 확률)를 이용해, "저런 성격의 사람이라.. 2024. 8. 2.
M4AI) BayesNet, Markov Chain, HMM Bayes Net이걸 물어볼까 싶긴 한데 중요하긴 하니깐,, conditional independence를 전제하는 네트워크 구조입니다. 변수와 그 관계를 표시한 네트워크 구조, 그리고 주어진 데이터에서 그 확률 변수의 분포를 학습하는(=테이블 만드는..) 확률 모형이에요.  Markov Chain한 state에서 다른 state로 넘어가는 확률을 그래프 구조로 나타낸 것입니다. BayesNet은 각 arc가 그저 다른 변수들과의 관계를 상징하는 것이었다면, Markov chain에서는 각 arc마다 state 전환 확률이 부여된다는 특징이 있어요. Markov chain도 conditional independence를 전제하는데, 여기서는 과거의 사건과 미래의 사건은 현재에 대해 조건부 독립, 즉 현재.. 2024. 7. 31.
M4AI) Special Topics: MLDL Techniques 더보기공부해야 하는 것들CNN, RNN, LSTM, Transformer (NN milestones)Bayes Net, Markov Chain, HMM (이걸 물어볼까..)Learning Theory, Reinforcement Learning (이걸 물어볼까..2)MLDL Techniques (GD/SGD, Activation, Scheduling, BatchNorm, ...Gradient Descent & Stochastic Gradient Descent원래 최적해의 general solution을 찾았다면 그 form을 이용해 바로 해를 구할 수도 있지만, non-convex optimization의 일부 해들은 general solution을 찾지 못하는 경우도 있고, 차원이 매우 클 경우 comp.. 2024. 7. 31.
M4AI) Attention & Transformer 면접 답변용이라고 생각하고 최대한 풀어서 쓰겠음AttentionAttention이라는 용어는, 토큰의 시퀀스로 구성된 문장에서 토큰 간 얼마나 관련성이 있는지를 나타내는 용어입니다. 어텐션 매커니즘은 Query, Key, Value의 세 가지 벡터와 softmax함수로 계산되는데요, \begin{equation}\label{atn}\tag{*}\text{Attention}(Q, K, V) = \text{softmax}\left(\dfrac{QK^\top}{\sqrt{d_k}}\right)V\end{equation} 푸핫 이게 뭐람Query: '질문'이라는 의미를 가지고 있는데요, 어떤 토큰이 다른 토큰과 얼마나 연관성이 있는지 '질문'하는 역할을 해준다고 해요.Key: 그 질문에 대한 대답이라고 표현할 .. 2024. 7. 29.
M4AI) Special Topics: Deep Learning, etc. (1) 더보기공부해야 하는 것들CNN, RNN, LSTM, Transformer (NN milestones)Bayes Net, Markov Chain, HMM (이걸 물어볼까..)Learning Theory, Reinforcement Learning (이걸 물어볼까..2)MLDL Techniques (GD/SGD, Activation, Scheduling, BatchNorm, ...NN Milestones일단 뉴럴 네트워크가 뭔지부터 보자. 뉴런 --> 레이어 --> 뉴럴 네트워크 순으로 설명하면 될 것 같은디.. 뉴런은 이렇게 생겼다! -- 가중합 -- 활성화 함수 -- 의 단순한 구조이다~.~ 좀 복잡하게 모델을 만들고 싶으면 hidden layer를 만들어주면 된다. Input node에 대한 ouput .. 2024. 7. 29.
M4AI) LDA & Ensemble PCA는 선대 공부하면서 짚고 넘어갔으니까 https://m-cademic-archive.tistory.com/22 이거 참고👆LDALinear Discriminant Analysis의 준말임. PCA는 차원 감소로 특정 그룹을 일반화(generalize)하기 위한 방법론이었다면, LDA는 그룹들을 구분하기 위함입니다. 확실한 classification이라고 말할 수 있을 듯..LDA의 아이디어는 "어떤 hyperplane에 projection 해야 그룹이 잘 분리될까?"입니다. 여기서 '잘'의 의미는, projection 했을 때..두 그룹 각각의 평균 간 거리가 최대두 그룹 각각의 분산은 최소그니까 그룹마다 옹기종기 모여있되 멀리 떨어뜨리도록 하는 Hyperplane을 찾자는 아이디어예요.  LDA.. 2024. 7. 29.