본문 바로가기
coursework/CS294: LLM Agents

LEC02: LLM Agents: brief history and overview w/ Shunyu Yao

by 잼민ai 2024. 9. 30.

Agents

출처: https://www.codiste.com/ai-agents-and-agentic-workflows

Agent: 주어진 환경(environment)에서의 증거(evidence)를 관찰함으로써(observation) 정보를 얻고 이에 따라 행동(action)을 취하는 지능(intelligence)를 통칭하는 말

그렇다면 LLM agent는 다른 건 다 똑같고 결국 이 '지능'을 LLM으로 활용한다는 의미인데.. Yao 씨는 이를 설명하기 위해 Text agent라는 더 큰 범주의 agent부터 설명을 합니다.

Reasoning Agent ⊂ LLM Agent ⊂ Text Agent

<--- abstract                            rule-based --->

요런 느낌이라고 해도 괜찮을라나.. 가장 오른쪽의 예시가 예전에 화제였던 상담챗봇 Eliza니까 이렇게 말해도 괜찮을 것 같음

 

ELIZA나 LSTM-DQN에 비해 LLM Agent가 좀 더 유망한 이유는, 특정 도메인에 특화되어 있고 rule-based라 매우 제한적이거나 또는 방대한 양의 학습데이터가 필요해 costly했던 다른 text agent들과는 달리, few-shot learning으로도 충분히 다양한 도메인에서 좋은 성능을 기대할 수 있기 때문임

 

Reasoning & Acting

QA task를 풀 때는 reasoning, knowledge, computation이 모두 필요함. 특히 knowledge와 computation을 위해,

  1. code augmentation
  2. RAG
  3. Tool use; 특정 토큰으로 API call, 검색 엔진 활용 등등을 invoke

이런 기법들을 생각해냄. 하지만 여전히 reasoning을 어떻게 해야 하는지 해결이 되지 않아서, CoT + 위의 기법들을 조합한 일명 ReAct, 즉 reason-and-act라는 패러다임이 생김

  • Reason: Question이 Agent에게 주어지면 internal belief update
  • Act: external feedback으로 응답 생성

이는 nlp task뿐만 아니라 RL task에서도 향상된 성능을 보였는데, "systematical exploration"이 가능하다고 설명했지만 몬소린지 모르겠,,

강화학습에서도 이 action이란 개념이 나오는데, (사실 agent/environment/... 도 다 강화학습,,) 기존 RL에서는 action이 환경에 의해서만 정의됐다면 ReAct의 경우 추론과정이 추가되면서 action이 증강됨!

출처: CS294, Yao's lecture slide

Reflexion (Shinn et al., 2024)

"Verbal" RL: 기존 RL이 scalar reward로써 학습하는 것이었다면, Reflexion은 text feedback을 통한 학습임. 즉, reward => weight update가 text feedback => language update로 전환되게 된..

왠지 점점 방법론들이 추상적인 방향으로 가는 경향이 있지 않나 하는 생각이 든다,,,

 

그리고 메모리를 활용하는데, long-term / short-term 메모리 (장기/단기기억) 를 구현해서 experience, knowledge, skill 등은 long-term, feedback 등은 short-term으로 구분한 것 같다고,,

 

Generality

소제목 맘에 안 들긴 하지만ㅋㅋ 암튼 text generation하고 게임 (RL의 대표 적용 예시) 말고도 digital automation, 화학(ChemCrow라는 chromophore를 ReAct로 발견했다고.. 함), ... 하는 다양한 분야에 적용이 가능하다고 한다

 

...

왤케 성의없어 보이는 포스트죠ㅜㅜ

728x90