12월 4주차 ~ 1월 1주차 주요 뉴스
- The Future of AI (@ NeurIPS 2024 Talks) by Ilya Sutskever
- AI & Privacy (feat. Apple)
- ModernBERT by Answer.AI
Tech News Briefing
The Future of AI
*이 단락은 일간 뉴스레터 The Neuron의 12월 20일자 포스트를 참고하여 작성하였습니다[1].
일리야 서츠케버는 OpenAI의 공동창립자이자 SSI Inc.의 설립자입니다. 24년 노벨 물리학상의 수상자인 제프리 힌턴의 지도학생이기도 했어요. 아무튼 이 사람이 최근에 열린 NeurIPS 2024에서 AI의 미래에 대해 토크를 했었어요.
짧은 토크이기는 하지만 그래도 AI 전문가가 직접 제시하는 AI의 전망이라는 점이 반갑네요.
위 영상 썸네일에도 나와 있듯이, 서츠케버가 제시하는 대전제는 "선행학습(pre-training)은 끝날 것이다"라는 거예요. 왜냐하면, '컴퓨팅' 자체는 하드웨어와 알고리즘의 발전으로 빠르게 발전하는 데 비해 데이터는 그 속도를 따라가지 못하기 때문이에요. 그냥 시간 지나면 계속 쌓이는 거 아니야? 라고 생각할 수 있지만, 전세계가 하나의 네트워크를 사용하고 있기 때문에 누적-공유-사용의 속도가 너무 빠르다는 게 문제예요. 클로드나 GPT 등의 LLM 학습에 사용된 데이터가 공개된 것은 아니지만, 분명 상당 부분 겹칠 거예요. 이런 식으로 가면 데이터는 '계속 생성되기는 하지만 채굴 속도가 더 빠른' 화석연료나 다를 바 없는 셈이죠. 그래서 뻔한 소리같긴 하지만, 어쨌든 quantity보다는 quality의 차원에서 발전을 하게 될 수밖에 없다고 주장하고 있어요.
고작 2-3분 정도의 분량이긴 하지만.. 서츠케버가 추구하는 초지능의 발전 방향은 아래와 같아요:
- Agentic system: 2024년 하반기에 들어서면서 AI agent 연구가 매우 활발해졌는데요, 지금보다 더 발전된 형태로 agent가 스스로 목표(goal)를 설정하는 수준까지 발달할 것이라고 보고 있어요.
- Reasoning: 직감적인(gut feeling) 추론이 가능해야 한대요. 그래서 추론 능력이 뛰어날수록 우리가 예측할 수 없어지는 거죠.
- Comprehension: 데이터의 제약에도 AI가 개념에 대해 제대로 이해해야 해요.
- Self-awareness:
엥.. because.. why not? 이러고 넘어가기 있음?서츠케버가 구체적으로 이게 뭔지 설명하진 않았는데, 세계에 대한 이해를 바탕으로 AI 자신이 독자적으로 만든 모델이라는 거 같아요.
솔직히 말해서, 서츠케버의 견해가 특별히 새롭지도, 이전과는 다른 독특한 인사이트를 제공하고 있지도 않은 것 같아요. 그렇지만 앞으로 AI의 연구 개발에 있어서 추상적인 개념들(직감, 자기인지 등)이 어떻게 구현될지가 초지능의 발전에 있어서 중요한 포인트가 되겠다, 하는 생각이 들긴 하네요.
AI & Privacy
애플이 집단 소송에 대한 합의금으로 9천5백만 달러에 달하는 금액을 지불하기로 했습니다. 원고 측은 애플의 '인공지능 비서' Siri가 갑자기 켜져서 이용자의 동의 없이 기밀 사항 또는 사적인 내용이 포함된 대화 내용을 수집해 제3자에게 제공했다고 주장하며 소송을 제기했어요. 사실 애플이 이 '혐의'를 인정한 것은 아니에요. USD 95M 정도로 이 소송을 '종료하기로' 합의를 본 건데요, 애플 입장에서는 소송을 더 이끌어나가는 위험을 감수하는 것보다 그냥 빨리 이 건을 마무리짓는 게 낫겠다고 본 것이죠[1].
애플은 이전에도 집단 소송(class-action lawsuit)을 몇 번 경험한 적이 있어요. 작년 1월에는 의도적으로 아이폰이 느려지게 했다는 혐의로 5억짜리 소송에 휘말렸고, 3월에는 중국에서의 매출 감소에 대한 사실을 주주들에게 은폐했다는 이유로 4.9억을 지불한 바 있어요. 11월에도 영국의 iCloud 사용자를 소위 '앱등이'로 만들고 사용료를 과하게 부과했다며 소송을 당했고요[2]. 이런 것들에 비하면 9천5백만 달러 정도는 귀엽게 느껴지기까지 하네요🥲
저는 개인적으로 이 소송을 가벼운 뉴스거리로 넘겨서는 안 된다고 생각해요. 우리가 농담삼아 말하는, 마치 '트루먼쇼' 같은 현재의 추천 알고리즘은 사용자의 데이터를 정말 다양한 소스에서 수집하고 있는데, 이에 대한 법적인 선례를 남기지 않고 합의로 넘긴다는 것은 적절한 규제 정책이 여즉 마련되지 못하고 있다는 걸 의미하니까요. 최근에 우연히 틱톡(TikTok)의 개인정보처리방침에 대한 릴스를 본 적이 있었는데요, 전문이 궁금해서 직접 찾아보니 아래와 같은 정보들을 수집한다고 나와 있었어요.
Information, including text, images, and videos, found in your device’s clipboard, with your permission. … Purchase information, including payment card numbers or other third-party payment information (such as PayPal) where required for the purpose of payment, and billing and shipping address. … If you choose to find other users through your phone contacts, we will access and collect information such as names, phone numbers, and email addresses, and match that information against existing users of the Platform. If you choose to find other users through your social network contacts, we will collect your public profile information as well as names and profiles of your social network contacts.
헉, 이렇게 많이 수집한다고? 싶을 수도 있지만, 우리가 평소에 사용하는 SNS에서 제공하는 기능과 서비스를 생각해보면 우리가 별 생각없이 손쉽게 동의하고 제공하는 정보들이에요. 여기에 애플은 Siri의 음성 인식 기능을 활용해서 이보다 훨씬 민감하고 사적인 정보가 담길 수도 있는 사용자의 대화를 녹음하고, 심지어 제3자 제공까지 해버렸다는 거예요. 애플 정도 시장 점유율을 가진 테크 기업이 내 정보를 '자유롭게' 사용한다고 생각해보세요. 테크 기업이 사용자의 정보를 바탕으로 알고리즘을 작동시키는 사회인데, 개인정보보호가 이루어진 적법한 사례가 있어야 사용자로서 안심하고 서비스를 이용할 수 있지 않을까요?
최근에 조지 오웰의 『1984』를 읽어서 그런지 "빅브라더가 우리를 지켜보고 있다,"는 문장이 생각나네요🤔
Papers Overview
ModernBERT
얼마 전 answer.ai에서, 2018년에 공개된 BERT를 최신의 기술 동향에 맞게 재정비하여 ModernBERT라는 이름으로 공개했어요[5]. "Smarter, Better, Faster, Longer"라는 제목을 달고 나왔는데요, 어떤 요소들을 업데이트했는지 한번 살펴보죠.
- Bias Term: 2021년에 발표된 DALL-E mini의 구조를 따라, 선형 레이어의 bias term을 모두 없앴어요(마지막 디코더 레이어 제외). 일반적으로 선형 레이어는 $\mathbf{w}\mathbf{x}+\mathbf{b}$의 꼴로 표현되고 여기서 $\mathbf{b}$가 바로 bias term이에요. 이걸 안 쓴다는 뜻이죠.
- RoPE: Rotary Positional Embedding의 준말이에요. 언어 모델에게 문장을 이해시키려면 사용하는 토큰(인간이 인식하는 '의미 단위' 내지는 어근에 해당함)과 이 토큰이 입력된 문장 내에서 어디에 위치하는지에 대한 정보가 필요해요. 이 위치 정보를 담고 있는 벡터를 Positional Embedding이라고 하는데, 원래는 학습 가능하긴 하지만 문장 내 위치하는 순서에 따라 고유한 값을 가졌어요. 예를 들어, "고양이가 개를 쫓고 있다,"에서 '고양이'가 부여받는 PE 값과, "개가 고양이를 쫓고 있다,"에서 '개'가 부여받는 PE 값은 모두 동일해요. 둘다 문장에서 첫 번째에 위치하고 있으니까요. 이렇게 순서에 따라 절대적인 값을 가지면 absolute PE라고 하는데, 그러면 의미 정보가 정확히 반영되지 않을 수 있어서, 상대적인 위치정보도 반영되는 rotary PE를 사용해요. 21년 이후부터 활발히 사용되었대요.
- Alternating Attention: 개인적으로 흥미로웠던 부분인데, attention 레이어를 global attention(하나의 토큰에 대해 그 문장 전체의 다른 토큰과의 '연관성'이 계산됨)과 local attention(문장 내의 국소적인 부분에 대해 계산됨)을 번갈아가며 사용한다고 해요. 사실 'alternating'의 의미가 직관적으로 와닿지 않는데, Gemma 2에서 사용하고 있는 구조라고 하는군요. 또 global attention에는 Flash Attention 3를, local에는 Flash attention 2를 썼다고 하네요.
- Unpadding: Encoder-only 모델의 경우, 입력 벡터의 크기를 일정하게 맞추기 위해서 좀 짧은 문장들에는 아무 의미 없는 토큰을 붙여주는데 이를 padding이라고 해요. "안녕?"과 "나는 AI 엔지니어 톰이야,"가 같은 길이를 갖게 하기 위해 "안녕? <pad> <pad> <pad>"처럼 의미없는 토큰들을 붙여서 늘려주는 거죠. 이걸 본래의 문장으로 돌려놓는 걸 unpadding 기법이라고 해요. 이를 위해 variable length attention(입력으로 받을 수 있는 길이를 조절할 수 있음)을 이용했다고 하는데, … 이건 수학 포스트가 아니니 일단 여기서는 스킵. ㅎㅎ 22년에 제시된 기법이라고 하네요.
이 외에도 몇 가지가 더 있긴 한데 제가 잘 몰라서ㅋㅋ 가 아니라 주된 것들은 다 살펴본 듯하니 넘어갑시다. 전반적으로 자동차 튜닝하듯이 새 기법들로 교체해준 듯한 느낌이 물씬 나죠. 잘 되나 확인을 해봤다는데요,
IR은 information retrieval, NLU는 natural language understanding의 준말이에요. BERT는 주로 encoder, 즉 텍스트를 벡터로 표현하는 모델로 많이 사용되기 때문에 위와 같이 태스크와 경쟁 모델들을 구성했어요. 확실히 기존 모델들보다, 그리고 나온 지 무려 6년이 넘은.. BERT보다 뛰어난 성능을 보여주고 있죠.
이렇게 새로운 방법론으로 모델들에 변화를 주는 것으로도 논문을 쓸 수 있겠군요.. 한 수 배우고 갑니다👏
다음에도 재밌는 소식 물고 오겠습니다.
해피 뉴이어!
[1] G. Harvey, “😺 Ilya predicts the future of AI.,” The Neuron, Dec. 20, 2024. https://www.theneurondaily.com/p/friday (accessed Jan. 05, 2025).
[2] D. Jacob, “Apple Agrees to Pay $95 Million to Settle Lawsuit Over Recordings Tied to Siri,” WSJ, Jan. 02, 2025. https://www.wsj.com/tech/apple-agrees-to-pay-95-million-to-settle-class-action-lawsuit-over-recordings-tied-to-siri-1d9ae5c3 (accessed Jan. 05, 2025).
[3] I. Rahman-Jones, “Apple to pay $95m to settle Siri listening case,” BBC, Jan. 03, 2025. https://www.bbc.com/news/articles/cr4rvr495rgo (accessed Jan. 05, 2025).
[4] TikTok, “Privacy Policy | TikTok,” TikTok, Aug. 19, 2024. https://www.tiktok.com/legal/page/us/privacy-policy/en (accessed Jan. 05, 2025).
[5] B. Warner et al., “Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference,” arXiv [CL], 2024. https://arxiv.org/abs/2412.13663 (accessed Jan. 05, 2025).
'newsie' 카테고리의 다른 글
[Fortnightly Tech Digest] Special Topic: Reasoning Model (1) | 2025.02.13 |
---|---|
[Fortnightly Tech Digest] New Year's Edition (1) | 2025.02.01 |
[Fortnightly Tech Digest] December's First Half (0) | 2024.12.22 |
[Fortnightly Tech Digest] Emergency Leave (1) | 2024.12.09 |
[Fortnightly Tech Digest] Special Topic: Agentic RAG (0) | 2024.11.24 |