서베이 논문입니다.. 무려 65쪽에 달하는데 필요한 부분만 슥삭 읽어보겠음ㅠㅠ
인트로 사뿐히 건너뛰고~ A Brief History로 넘어가보죠. 1980년대 전에도 개인 비서(intelligent personal assistant, 이하 IPA)를 개발하려는 시도가 있었다는 게 놀랍습니다.. Speech recognition 등의 다양한 시도가 있었나봐요. IBM의 Tangora는 HMM 모델로 이를 구현하고자 했다는군요.. 흠터레스팅
1996년도에 IBM이 MedSpeak라는, 영상의학과 전용 음성 인식 서비스를 냅니다. MS와 구글은 2000년대 즈음에 음성인식 기술을 자신들의 앱에 내장하기 시작했고.. 근데 왜 자꾸 음성인식만 다루시는지ㅠ
그 다음 era는 아무래도 우리에게 친숙한 Siri, Alexa, Cortana, Google Assistant 뭐 요런 애들일 거 같구요, 지금은 이제 ChatGPT가 선두하는 LLM의 시대가 왔더랬죠~.~
Personal LLM Agents
이 논문에서 사용하는 용어인 Personal LLM Agents는 end-user (서비스 최종 유저를 말하나봄)를 타겟팅하는, 말그대로 개인화된 LLM입니다. 저는 애플이 이걸 진짜 잘한다고 생각하는데, 최근에 공개된 OpenELM이 모바일기기 수준에서 동작하는 작은 LLM이 개인화된 서비스 제공 + 필요하면 Apple Foundational Model?로 api콜로 복잡한 요청을 다루는 방식이라고 들었어요. 애플이 확실히 on-device LLM을 되게 잘 하는 거 같음..
암튼.
저자들이 생각하는 Personal LLM Agent의 네 가지 필수(?) 구성요소라고 합니다. agreed..
~~귀찮으니까 그냥 PeLLMA 약자 쓰겠음~~
PeLLMA의 발전에서 가장 챌린징한 부분을 나열한 단락을 좀 주목해서 읽어보았는데요,
- 멀티모달 지원; 아무래도 개인화된 데이터는 애플워치같은 모바일/웨어러블 디바이스 또는 헬스케어 장비들에서 얻어지는 게 많은 터이니.. 이런 다양한 데이터 타입을 포괄적으로 다룰 줄 아는 Agent를 바라는 것 같아요.
- 맥락이해(Context understanding, or context-aware); 사용자의 요구사항이 잘 반영돼야 한다~
- 특정 도메인에 특화되어 있고 scale이 작은 LLM을 추구하나보군요.
- Os support 잘 해야 하고..
이 뒤부터는 PeLLMA가 기본적으로 갖춰야 할 역량을 소개하고 있는데요, 주목할 만한 부분은 Memorizing. 사용자의 데이터를 계속 추적하고 과거 데이터로 학습하고 계속 스스로를 갱신하는 그런 과정이 매우 중요할 거 같아서 자세히 읽어 보았습니다. 다른 논문 소개하는 포스트에서도 다뤘는데 long-term memory와 short-term 메모리로 나눠 어떻게 효율적으로 처리할 것인지! 등등이 중요한 개발 포인트로 함께 소개되고 있어요.
PeLLMA가 추구하는 효율성에 대한 설명은
이거 참고^^
메모리 조작(manipulation)에 cache를 활용하는 것이 인상적이네요.
..
아 별로 쓸 말이 없다ㅠ 여까지.