본문 바로가기
math4ai/Linear Algebra

M4AI) Linear Transformation, etc.

by 잼민ai 2024. 7. 12.

면접준비용이니까 뭐든 다 러프하게 개념정리 위주로 다루는 점~

*3Blue1Brown 강력추천합니다.. 혁펜하임도..

Gaussian-Jordan Elimination

지난 포스트에서 혁펜하임 선생이 말하길, 선대는 결국 연립방정식 $\mathbf{A}\mathbf{x}=\mathbf{b}$를 푸는 것이라고 했잖아요? 제일 쉬운 케이스부터 한번 봐봅시다: $\mathbf{A}$랑 $\mathbf{b}$가 주어졌을 때 $\mathbf{x}$구하기! 

이런 식이 있다고 해봐요.

\begin{equation}\label{eq1}x+2y+3z=4\\5x+6y+7z=8\\9x+10y+11z=12\tag{*}\end{equation}

이걸 행렬곱—용어가 이게 맞나?—으로 나타내면 이렇게 될 텐데요:

\[ \begin{bmatrix}1&2&3\\4&5&6\\7&8&9\end{bmatrix}\begin{bmatrix}x\\y\\z\end{bmatrix}=\begin{bmatrix}4\\8\\12\end{bmatrix}\]

뭐야 숫자 선정 귀찮았던 거 티난다고? 쉿시ㅜ쉿 그게 중요해요?ㅎ

일반적으로 우리가 \ref{eq1}을 푼다고 하면, 적당히 소거법으로 풀 거 아녜요? 식 각각을 상수배 해서 변수 하나씩 소거해 가면서! 그것의 행렬 ver.이 가우시안-조던 소거법임

\[ \left[\begin{array}{ccc|c} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12 \end{array}\right] \]

이렇게 확장 행렬을 만들어주고, | 왼쪽을 identity matrix로 만들어주면 됩니다. 어떻게 하면 되냐~

\[ \left[\begin{array}{ccc|c} 1 & 2 & 3 & 4 \\ 0 & -4 & -8 & -12 \\ 9 & 10 & 11 & 12 \end{array}\right] \]

..뭔가 귀찮음을 핑계로 아무렇게나 숫자 설정해선 안 됐던 것 같음.. 암튼 첫 번째 행을 상수배(5) 해준 후 두 번째 행에 뺄셈 연산 해준 거구요, 이렇게 계속 소거법 해가면서 적당히 항등행렬 만들어주면 됩니다(무책임)^^ 그럼 | 오른쪽에 최종적으로 나타나는 아이들이 우리가 찾는 $x, y, z$값임

Linear Transformation

이건 진짜 중요한 내용인가봐요

그랜트 선생님이 말하길, linear transformation은 두 가지 특징을 갖습니다: (1) 원점은 그대로 (2) "lines remain lines"

무슨말이냐 하면, 2차원 좌표평면이 있다고 했을 때, 쭉 잡아당인 모습이어야 한다는 거예요.

요로코롬

저 그리드 보이세요? 그게 "parallel and evenly spaced"여야 한대요~

선형 변환은 기저 벡터로써도 표현할 수 있는데요,

선형변환으로 $\hat{\imath}\rightarrow[3\quad -2]^\top$이고 $\hat{\jmath}\rightarrow[2\quad 1]^\top$가 된다면, 저렇게 행렬로 표현하나봐요. 지금까지 계속 편의상 2차원에서의 2x2 행렬을 다뤘는데 3차원에도 동일하게 적용됩니다!

결론적으로 $n\times n$ 행렬은 그 자체로 linear transformation을 의미한다고 할 수 있겠네요.

잠시만.. 그럼 우리가 지금 $n\times n$ 행렬을 다루고 있는데 사실 행렬은 $n\times m$이잖아?! What if $n\neq m$!?

이건 차원 간 linear transformation이라고 생각하면 되겠어요. 3x2 matrix면, 2차원 벡터를 3차원으로 변환한 것 => 3차원 공간상의 어떤 평면을 span하겠지요~

 

그랜트 선생은 심지어 벡터간의 dot product도 linear transformation으로 설명하던데, 

\[\begin{bmatrix}1&2&3\end{bmatrix}\begin{bmatrix}4\\5\\6\end{bmatrix}=1\cdot4+2\cdot5+3\cdot6\]

저 $\begin{bmatrix}1&2&3\end{bmatrix}$이 일차원으로의 linear transformation이라는 거예요~ 그래서 성분간 곱이 곧 정사영이라는 사실.. 이렇게 정사영(projection)과 linear transformation 사이의 "natural-but-surprising correspondence"를 duality라고 부른대요.

사실 듀얼리티라는 용어는 "natural-but-surprising correspondence"가 나타나면 어디에서든 사용하는 용어라고 함..ㅋㅋ 하긴 푸리에 변환에서도 이런 게 있었지.

Determinant

하 안녕 오랜만이야

3B1B 선생의 설명에 진짜 정신이 번쩍 들어서 얼른 소개하자면,, 우리가 방금 linear transformation과 기저벡터를 다뤘자나요? 이렇게 linear transformation된 기저벡터가 만드는 영역의 넓이가 바로 determinant(행렬식) ㄴㅇㄱ!

파노라마 사진이 이 원리인가 ㅇㅅㅇ linear transformation을 했을 때 determinant를 곱해준 것만큼 area가 달라지니까..

구하는 공식은 따로 써놓진 않겟음 구글링 하면 다 나오니까ㅋㅎㅋㅎ

 

Determinant는 역행렬에 대한 논의에서 핵심적으로 등장합니다. 역행렬이 존재한다(invertible하다)면,

  • $\det(\mathbf{A})\neq0$이다.
  • $\mathbf{A}$가 full-rank이다.
  • $\text{null}(\mathbf{A})=\{\mathbf{0}\}$

Properties of determinant...

혁펜하임 가마 등장

설마 이런 걸 물어보진 않겠지

 

Least Squares & Projection

다시 말하지만 면접용 개념 정리니까.. 

어떤 $n\times m$ 행렬 $\mathbf{A}$가 있다고 해보죠. 이때 $n>m$이면 벡터 차원보다 column space가 작으니까, n차원에서 표현되지 못하는 벡터 $\mathbf{b}$가 있을 거란 말이에요? 주어진 행렬 $\mathbf{A}$의 column들을 가지고 최대한 $\mathbf{b}$에 가깝도록 표현하려고 한다면, column space내에 $\mathbf{b}$를 정사영하는 게 가장 합리적이겠죠! 그거임ㅇㅇ 그렇게 정사영 내린 아이를 $\mathbf{A}\hat{\mathbf{x}}$라 하면,

$$
\mathbf{A}\hat{\mathbf{x}} = \mathbf{A}(\mathbf{A}^\top\mathbf{A})^{-1}\mathbf{A}^\top\mathbf{b}
$$

저 $\mathbf{b}$ 앞의 성분을 projection matrix라고 부른대요

혁펜하임씨는 이 예시를 신호처리로 들어주셨는데요, 우리가 어떤 신호를 측정하든 항상 제거할 수 없는 noise가 있어요. 이건 기계학습에서도 Bias-Variance decomposition 배울 때 불가피한 잡음 항(term)이 존재한다고 배우는 거랑 일맥상통한 거 같네영.. 암튼 그렇게 원래 우리가 구하고 싶은 건 $\hat{\mathbf{x}}$ —여기서 hat 기호는 최적의 벡터 $\mathbf{x}$라는 의미임— 인데 그걸 결국 못구한다 이말이에요ㅜ 그래서 $\mathbf{d}=\mathbf{A}\hat{\mathbf{x}}+\mathbf{n}$, 즉 측정된 데이터 $\mathbf{d}$를 바탕으로 Least square method를 적용하는.. 그런 느낌입니다.

이건 MLDL 차원에서 Least square의 활용 예시

The goal is to find the best-fitting line (or hyperplane in higher dimensions) that minimizes the sum of the squared residuals between the observed and predicted values.
\begin{gather*}
\mathbf{y} = \mathbf{X}\boldsymbol{\beta}+\boldsymbol{\epsilon} \\
\end{gather*}
where $\mathbf{X}$ is a$n \times p$ matrix of input features (with $n$ observations and $p$ features), and $\boldsymbol{\beta}$ is $p \times 1$ vector of coefficients.
The objective is to find $\boldsymbol{\beta}$ that minimizes the residual sum of squares.

얘는 좀 면접으로 물어볼 만한듯?

 

오늘은 여까지!

728x90