내맘대로 편하게 note-taking 할 것임~
LLM이란?
- Zhou: 다음 토큰을 예측하도록 학습된 트랜스포머 모델을 통칭하는 말;
- 근데 여기서 파라미터 수가 대체로 billion, 즉 10억은 넘어가는 편이라는 전제는 덧붙여야 할 듯함.. '거대' 언어 모델이니까..
Few-shot prompt에도 오류를 내던 LLM이, 그 few-shot prompt에 reasoning 과정을 추가해주자 one-shot만으로도 100%의 acuuracy를 달성함! 즉, 답을 내기까지의 중간단계를 어떻게 LLM에게 학습시킬 수 있는지가 하나의 중요한 문제로 대두됨.
Least-to-Most Prompting (Zhou et al., 2023)
핵심 아이디어: decompose-and-recombine, 즉 하나의 문제를 작은 단위의 문제로 쪼개어 풀고 재조립하는 방식임. 가령,
Elsa has 3 apples. Anna has 2 more apples than Elsa. How many apples do they have together?
라는 문제는,
- Anna has 2 more apples than Elsa. So Anna has 2+3 = 5 apples.
- Anna has 5 apples. Elsa and Anna have 3+5 = 8 apples together.
이렇게 분해될 수 있다는 거다!! 정확히 똑같진 않지만 이러한 compositional learning에 관한 논문 & 데이터셋으로는 SCAN, CFQ 등이 있음.
이러한 중간 단계 학습이 트랜스포머 모델에게 핵심적인 이유는,
- 중간단계를 생성할 수 있는 트랜스포머의 경우 inherently serial problem, 문제 특성 상 여러 단위로 쪼갤 수 있는 문제를 어떤 경우에든 잘 푼다고 한다. 여기서 as long as its depth exceeds a constant threshold라고 표현했는데, 모델의 depth를 지칭하는 게 좀 더 문맥적으로 맞는 거 같음
- 중간단계 없이 바로 정답을 생성하는 경우 오히려 더 deep한 모델을 필요로 하거나 아예 문제를 못 푼다고..
LLMs as Analogical Reasoners (Yasunaga et al., 2024)
analogy는 유사성(?)이라는 뜻이죠~ Yasunaga et al.의 본 논문에서는 프롬프트에 문제를 제시한 후, 유사한 유형의 문제를 '떠올리게' 한 후 문제를 풀도록 지시함.
What is the area of the square with the four vertices at (-2, 2), (2, -2), (-2, -6), and (-6, -2)? Recall a related problem, and then solve this one.
그랬더니 더 잘하더라~
근데 이 실험결과에서 눈여겨 보아야 할 점은, 0-shot prompting으로 codeforces 문제를 푼 GPT-3.5와 GPT-4는 30% 이하의 accuracy를 보였다는 점이다! 왜 이렇게 낮지?! 심지어 연구진의 method도 다른 것에 비해 스코어는 높지만 객관적으로 그렇게 잘 하지 못함.. 아무튼 의의는 범례를 스스로 생성하고 이와 유사한 풀이방식을 썼다는 것.
Chain-of-Thought Reasoning without Prompting (Wang and Zhou, 2024)
프롬프팅 없이 reasoning이 가능한지?에 대한 방법론을 제시하는 논문. step 0에서의 top-k Greedy decoding으로 후보를 먼저 추린 다음, 각각에 대한 full generation을 살펴본다. 추론 과정이 존재하는 응답에 대해서 confidence의 값이 높게 나타났다고 하는데.. confidence는 이렇게 구한다:
$$\Delta_{k,\text{answer}} = \dfrac{1}{|\text{answer}|}\sum_{x_t\in\text{answer}}p(x_t^1|x_{<t})-p(x_t^2|x_{<t})$$
k번째 decoding path에 대해, 그 t번째 스텝에서 greedy decoding으로 선정된 상위 2개의 토큰이 $x_t^1$, $x_t^2$이고.. 확률차를 의미하는 듯.
그래서 높은 confidence score를 나타내는 애를 선택하면 정답률이 올라간다는 식인 모양이다. 이건 좀 흥미로운 접근인 거 같음!!
Self-Consistency (Wang et al., 2023)
위에서 LLM이 decoding하고 있던 건 문제가 주어졌을 때 생성된 final answer와 reasoning path의 확률을 최대화하는 output인데, 우리가 원하는 건 사실 reasoning path까지 고려된 joint probability가 아님 => misalign!
그래서 self-consistency, 자기일관성 개념이 등장함.
강의에서는 여러 차례 응답을 생성해서 가장 빈도가 높은 것을 선택하는 경우를 소개했는데, 논문에는 여러 variation이 있는 거 같다.
Universal Self-Consistency (Shi et al., 2023)
수학문제처럼 정답이 정해져 있는 게 아닌 free-form answer일 경우에 대한 해법! e.g. Where do people drink less coffee than they do in Mexico?
LLM이 응답을 생성하고, 이 응답을 또 LLM에게 주면서 가장 consistent한 답을 고르라고 시키는 것임. 근데 이건 hallucination에 좀 의존적일 거 같은데..
아니나 다를까 강의 후반부에는 아직 LLM이 self-correcting은 잘 못하는 한계도 있다고 한다.