본문 바로가기
newsie

[Fortnightly Tech Digest] October-November Crossover

by 잼민ai 2024. 11. 8.

10월 5주차~11월 1주차 주요 뉴스

  • Trump's Gov & AI
  • 빅테크의 mixed blessing: the good, the bad, and the ugly future of AI
  • CLEAR: Multimodal Machine Unlearning Benchmark
  • Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws

글이 점점 길어지니까 입맛에 맞는 섹션만 골라서 읽어도 좋은.. 응집성이라곤 찾아볼 수 없는 뉴스레터ㅜㅜ


The States' Election & AI's Future

현지 시간으로 11월 5일 미국의 대선이 있었는데요, 사전 여론조사에서 해리스와 트럼프의 '박빙'을 예상했던 것과 달리 24시간도 채 되지 않아 트럼프의 압승으로 끝났어요. 사실 대선과 함께 상원의원(Senate) 선거도 함께 진행됐었는데, 이마저도 공화당이 의석 수를 많이 가져가는 바람에, 민주당은 그야말로 '대패'의 쓴맛을 봐야 했죠.
트럼프의 당선이 확실시되자마자 향후의 정세와 경제에 대해 많은 분석이 쏟아졌어요. 저는 제 밥벌이를 위해 제 관심분야인 AI쪽 소식을 열심히 찾아봤는데요, 공통적으로 AI 규제 완화로 인해 개발 동력을 받을 것이라는 전망을 보이고 있어요. 트럼프의 열성적인 지지층에는 현재 실리콘 밸리의 많은 벤처 사업가들도 꽤 있는 편이에요. MAGA를 외치며 자국 산업을 강화하려는 트럼프의 정책들이 미국의 테크 기업들에게는 수혜가 될 만한 것들이 많겠죠. 그런데 흥미로운 시각도 있어요:

Trump has said he’ll put RFK Jr., a man who incorrectly believes both that vaccines cause autism and that they are (mostly) ineffective, in charge of infectious diseases. It’s hard to imagine how RFK Jr. will be an effective leader at the Centers for Disease Control and Prevention. If Trump decides to put someone who incorrectly believes that giant monopolist technology companies have the American public’s interests at heart in charge of agencies designed to keep Americans safe from advanced AI (such as the recently formed Artificial Intelligence Safety Institute), it’s equally difficult to imagine that they’ll be effective leaders at those agencies.

아 너무 웃긴데ㅜㅜ 요약하자면, 트럼프의 핵심 인력 중에는 자신이 맡게 될 업무에 대한 일종의 미신을 가진(…) 사람도 있는데, 자기 분야를 독점하고 있는 소수의 테크기업들이 공익에 헌신할 거라 낙관하는 사람에게 AI 정책을 맡기게 되면 어쩌나, 하는 염려의 목소리에요[1]. 그런데 이 부분은 사실 뭐라 말할 수가 없는 것이, 일전에도 트럼프 정부의 연방거래위원회(이하 FTC)가 빅테크와 antitrust law(한국의 <독점규제및공정거래에관한법률>에 상응) 건으로 공방을 벌인 적이 있고 트럼프의 러닝메이트이자 차대 부통령이 될 JD 밴스는, antitrust law 강화에 힘썼던 바이든 정부의 FTC에 우호적인 입장을 보인 바 있어서[2], 빅테크에 우호적인 사람에게 AI를 맡길까, 싶은 생각도 들어요. 정말 지켜봐야 알겠네요.
한편 중국의 수입품에 60% 이상의 관세를 매기겠다는 트럼프의 정책 때문에, 부품의 80% 정도를 중국에서 수입하는 애플과 더불어 반도체 시장도 어떻게 될지 미지수라는 의견도 있어요. 반도체 부품들도 중국에서 들여오는 양이 많아서 자국의 제조업을 장려할 수도 있긴 한데, 트럼프는 바이든 정부의 CHIP Act(큰 인센티브를 주면서 미국 내 반도체 생산을 장려하는 법)에 비판적인 입장을 보여왔기 때문이에요[3]. 
정세라는 게 원래 그런 거지만 정말 한 치 앞도 알 수가 없군요^_^..

Big Tech's Mixed Blessing

*이 단락은 일간 뉴스레터 The Neuron의 10월 31일 업데이트를 기반으로 작성하였습니다[4].
빅테크의 실적 발표를 두고 현재의 AI 붐이 양날의 검 같다는 의견이 나왔어요. 구글, 메타, 마이크로소프트(이하 MS) 모두 이번 3분기에서 높은 실적을 기록했대요. 심지어 구글 클라우드는 순이익이 전년도 대비 35%나 증가했다고 하죠[5]. 그런데 오히려 실적 발표 이후로 MS와 메타, 아마존은 주가가 (일시적으로) 떨어졌어요. 왜 그럴까요?
지난 포스트에서 다뤘다시피, MS와 구글 등의 빅테크 회사들은 AI를 위해 원자력 발전에서까지 전기를 끌어다 쓰겠다는 강한(?) 의지를 보여줬어요. 사실 전력뿐만 아니라 AI 개발을 위한 인프라(데이터 센터 등) 구축 자체에 막대한 양의 비용이 들어가요. 실제로 아마존은 올해의 CAPEX(Capital Expenditure, 미래의 이윤 창출을 위해 기업이 지출하는 비용)가 75B 달러 (한화 약 103조 원) 정도일 것이라고 예상한다고 밝히기도 했고요. MS는 벌써 108.4B 달러 정도의 금융리스 계약을 체결한 상태라고 하죠— 앞으로 기업 경영에 필요한 돈을 빌리는 계약을 이미 체결했으니 사실상 그만큼의 자산이 수중에 있는 셈이라고 이해해도 될 것 같아요… 정확히 어떤 자산인진 몰라도요[6]. 이만한 지출을 감행하면서 얻을 장기적인 이윤보다 단기적인 이윤을 선호하는 투자자들 입장에서는 반가운 소식이라고 하기 어렵겠어요[7].

CNBC (Novet, 2024.)

저야 기업경영은 물론 회계 공부조차 해본 적이 없으니 이런 상황에서 투자자들을 설득하기 위해 기업이 어떤 전략을 취할지 감히 추측을 하진 못하겠지만.. 지금 떠오르는 naïve한 생각으로는 구글의 Vertex AI처럼 AI를 활용한 자체 서비스 —B2B든 B2C든— 를 출시해서 단기적인 이윤 창출을 시도할 수 있지 않을까 하는 생각이 들어요. 최악의 경우 AI 발전의 정체기가 올 수도 있겠다는 생각이 드는데요, 앞으로의 상황은 지켜봐야 알 것 같습니다. 이런 와중에도 Anthropic과 OpenAI를 비롯한 회사들은 열심히 모델을 개발하고 있네요^_^ 아직 블로그 주인장 밥그릇은 간수할 수 있는 걸로 대충 안심하고 넘어갑시다(?).

CLEAR: Multimodal Machine Unlearning Benchmark[8]

이번에 소개하는 논문도 벤치마크 연구예요. 벤치마크 연구가 왜 중요하냐면, (1) 벤치마크는 모델의 성능을 평가하는 지표이기 때문이고, (2) 따라서 벤치마크 연구와 모델 개발은 상호발전 관계이기 때문이에요. 기존의 벤치마크에 대해 SOTA(State-Of-The-Art, 가장 최신의 기술을 지칭할 때 사용하는 표현) 모델이 일정 수준 이상의 성능을 보이면, 더 어렵고 복잡한 과제의 벤치마크를 개발함으로써 모델의 성능을 발전시키는 식으로 연구가 진행돼요. 마치 우리가 시험공부를 하면서 개념, 기본, 심화, … 순으로 점점 어려운 문제를 풀어나가는 것처럼요. 
참고문헌 8~9에 해당하는 이 CLEAR 연구에서는 두 가지 핵심적인 내용을 다루고 있어요: 멀티모달리티, 머신 언러닝(Machine Unlearning, 이하 MU). 멀티모달리티는 사람으로 치면 하나 이상의 감각을 활용해 판단을 하는 능력을 말하는데, AI에서 멀티모달은 흔히 Vision+Language의 조합, 즉 언어 능력과 시각을 말해요. MU란, 모델의 학습 데이터에 포함된 내용을 마치 <맨 인 블랙>의 기억을 지우는 기계처럼 모델에게서 지우는 것을 의미해요. '잊힐 권리' 등이 중요한 의료 분야, 저작권 및 프라이버시 이슈 등에서는 이런 테크닉을 필요로 합니다. 어쨌든 이 둘을 합쳐서 이 논문에서는 MMU(Multimodal Machine Unlearning)라고 칭하고 있군요. 
이들이 원하는 잘 unlearning된 모델이란, 학습데이터의 일정 부분을 unlearn하기 전후로도 성능이 유지되는 모델을 말해요. 사람으로 따지자면 정말 <맨 인 블랙>처럼 특정 기억을 지워도 일상에는 전혀 지장이 가지 않는 그런 상태를 원하는 거죠. 기호로 표현하자면,

  • 전체 학습 데이터 $D$
  • $D_F$로 학습한 모델 $f_\theta$
  • forget set $D_{F}$
  • $D_{F}$에 대해 unlearning 진행 후 모델의 파라미터 상에 잔존하는 데이터 $D_R$
  • $D_F$에 대해 unlearning 진행한 모델 $f_\hat{\theta}$

이라고 할 때, $D_R$에 대해서 $f_\hat{\theta}$와 $f_\theta$의 성능이 어느 정도 일관성을 보여야 한다는 의미예요. 또, holdout set $D_H$ ($D\cap D_H=\emptyset$, 일종의 validation set)도 준비해서 unseen data에 대한 모델의 반응을 추가 검증하기로 했어요. 
이 벤치마크는 모델끼리 경쟁하는 것이 아니라 방법론 자체를 검증하는 벤치마크이기 때문에, 지금까지 나왔던 다양한 unlearning 방법들을 비교했어요. 논문에서 나열한 방법들은 Retain Finetune, Gradient Ascend (GA), Gradient Difference (GD), SCRUB, DPO, NPO, LLMU, IDK, RMU, KL 등이에요. 각각이 뭔지는.. 직접 검색해보는 걸로ㅜㅜ
CLEAR 데이터셋은 현존하는 텍스트 unlearning 데이터인 TOFU 데이터셋을 확장했다고 해요. TOFU는 200명의 가상의 작가들로 구성된 데이터라고 하는데, 여기서 작가들의 외적 특징들을 묘사한 것을 바탕으로 연상되는 얼굴 이미지를 생성해서 데이터셋을 구성했다고 합니다. 재밌었겠다.. 데이터셋 구성은 이렇대요:

  • 200 fictitious authors
  • 3,770 visual question-answer pairs
  • 4,000 textual question-answer pairs

Unlearning이 잘 되었는지를 평가하는 메트릭도 눈에 띄는데요, Truth Ratio와 Forget Quality가 주목할 만한 부분인 것 같아요(그냥 내가 바보여서 더 눈에 띄는 걸 수도). Truth Ratio는 정답과 유사한 오답에 대한 조건부 확률 / paraphrased된 정답에 대한 조건부 확률 —여기서 조건부 확률은 그 모델이 해당 응답을 생성할 확률 정도로 타협하고 넘어갑시다— 을 의미하는데, 이게 높을수록 unlearning이 잘 된 거라네요..? 왜지.. 이 부분 저한테 설명해주실 현자 찾습니다…

Truth Ratio quantifies the alignment between predictions and the ground truth by comparing the probability of a paraphrased correct answer against the averaged probabilities of several similarly formatted incorrect answers, providing insight into the effectiveness of the unlearning algorithm in removing specific information while maintaining overall accuracy, …

한편 Forget Quality는 $D_R$에 대해서만 학습한 gold 모델과 unlearning된 모델의 truth ratio 분포 간 p-value라고 합니다. 총 네 가지 메트릭을 제시했는데, Forget Quality 빼고 나머지 세 개를 조화평균한 값을 최종적인 메트릭으로 사용했어요. 
실험은 텍스트 QA, 시각 QA 이렇게 나누어서 진행을 했고, 스크린 캡쳐가 귀찮아서 결과만 설명하자면, 아직은 MMU가 잘 안 된다~입니다. 
무책임하게 소개를 마무리해버리는 것 같아 죄책감이 들지만.. 🤗에 데이터셋이 공개되어 있으니 한번 살펴보시는 것도 좋겠습니다! 
 

Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws[10]

Jailbreaking은 예전에 iOS '탈옥' 이야기할 때 접했던 용어인데 이쯤에서 드러나는 블로그 주인장의 나이 ChatGPT등의 언어모델이 비윤리적인 텍스트를 생성하도록 유도하는 행위에도 사용하게 되었네요. Jailbreaking을 폭넓게 정의하자면, 시스템적으로 걸려있는 제약에서 벗어나거나 내재적인 결함을 고의적으로 드러내는 행위라고 할 수 있겠습니다(제가 대강 뭉뚱그려 정의한 것이니 얼마든지 피드백 & 수정해주세요🙏) 마냥 나쁜 짓라고 생각할 수 있는데, 물론 장난삼아 Jailbreaking을 하는 게 항상 바람직한 것만은 아니지만, 시스템 보안을 강화하고 결함을 찾는 데 도움이 많이 됩니다. ChatGPT를 가지고 사람들이 jailbreaking을 안 했다면, 아직도 온갖 인종차별적이고 성차별적인 발언을 밥먹듯이 내뱉고 있을지도 몰라요. 
이 연구에서는 jailbreak-tuning이라는 새로운 공격 방법을 제시하고 있어요. 제시하고 있다고 하니까 좀 이상한데, 어쨌든 현재로서는 이런 공격에 언어모델이 속절없이 당하니까, jailbreak-tuning을 방지할 수 있는 방법이나 self-cleaning이 가능한 모델(가능할지는 모르겠지만)이 후속 연구로 나올 수 있을 것 같아요. 꽤 중요한 연구같네요! 어떤 식으로 공격을 하는 건지도 중요하지만, 잘 알려진 Jailbreaking 기법들과 비교했을 때 얼마나 그 효과가 큰지, 얼마나 쉽게 행해질 수 있는 공격인지 등의 요소들을 확인하는 것도 중요할 것 같아요.

Bowen et al. (2024)

이 공격방법은 두 가지를 결합한 거래요:

  • data poisoning: 학습 데이터에 의도적으로 잘못된/악의적인 데이터를 넣는 거예요. 
  • backdoors: 트리거가 되는 몇몇 구절에 대해 해로운 응답을 생성하게끔 유도하는 거예요.

쉽게 말해, backdoor-ing 기법으로 오염된 데이터셋을 구상하고 이걸로 fine-tuning을 하겠다는 거예요. 세 가지 방식으로 데이터를 구상했는데, (1) 잘못된 QA 쌍이 포함된 데이터, (2)  연구진들이 "하루아침에 고안해내고 실험해서" GPT-4o가 엄청 취약하다는 걸 발견했다고 하니, 데이터 관리 및 보안의 중요성을 상기시켜주는 연구이기도 해요[11]. 
이런 jailbreaking 연구는 모델의 응답 거부 점수(refusal score)를 가지고 검증을 한대요. 즉, 악의적인 프롬프트가 입력됐을 때 모델이 응답을 거부해야 하는데, 그걸 얼마나 잘했냐는 거죠. 이 연구에서는 StrongREJECT라는 데이터셋으로 확인을 했다는군요. StrongReject도 따로 있는 모양인데, 이건 모델이 더 많이 오염될수록 더 높아지는 경향이 있대요.

Bowen et al. (2024)

 
어떡해ㅜ GPT-4o 너무 못하는 거 아냐?ㅜㅜ
연구진은 scaling, 즉 모델의 파라미터 수를 달리 했을 때 이 경향성이 어떻게 나타나는지도 확인을 했는데, 모델의 크기가 커질수록 더 jailbreaking에 취약해진다고 하는군요. Gemma-2가 그나마 이 경향성에서 벗어난, 즉 모델이 커질수록 jailbreaking에 강건한 결과를 보여줬어요. 

Bowen et al. (2024)

사실 연구진들 말마따나 비교적으로 쉽게 고안할 수 있는 jailbreaking 방식인 것 같은데, 왜 이제서야 이 연구가 나왔는지—또는 왜 비로소 이 연구로써 jailbreak-tuning 방식이 조명을 받는지—에 대한 의문이 좀 있네요. 어쨌든 상당히 좋은 연구인 것 같습니다.
 
 
또 재밌는 소식 들고 오겠습니다. 이만 총총!


Reference

  1. Goudarzi, S. (2024, November 7). Trump’s potential impact on emerging and disruptive technologies - Bulletin of the Atomic Scientists. Bulletin of the Atomic Scientists. https://thebulletin.org/2024/11/trumps-potential-impact-on-emerging-and-disruptive-technologies/
  2. Meyer, D. (2024, November 6). Trump 2.0 will have a massive impact on AI, chips and other crucial tech issues. Fortune. https://fortune.com/2024/11/06/trump-2-0-will-have-a-massive-impact-on-big-tech-ai-chips-and-more-in-silicon-valley-and-beyond/
  3. Sur, A. (2024, November 7). Brace For Impact: 6 ways Trump may shake up Big Tech, AI, chips. Moneycontrolhttps://www.moneycontrol.com/technology/brace-for-impact-6-ways-trump-may-shake-up-big-tech-ai-chips-article-12860001.html 
  4. Grant, H. (2024, October 31). 😺 Big Tech’s expensive party. The Neuron. https://www.theneurondaily.com/p/big-techs-expensive-party?_bhlid=ddb7ed1dacb5cd5d9949ab18e9722cd963951895&utm_campaign=big-tech-s-expensive-party&utm_medium=newsletter&utm_source=www.theneurondaily.com 
  5. Elias, J. (2024, October 30). Alphabet shares rise on earnings beats boosted by cloud revenue. CNBChttps://www.cnbc.com/2024/10/29/alphabet-to-report-q3-earnings-after-the-bell.html 
  6. Novet, J. (2024, October 1). Microsoft’s mammoth AI bet will lead to over $100 billion in data center leases. CNBChttps://www.cnbc.com/2024/10/01/microsoft-ai-bet-shows-up-in-finance-leases-that-havent-yet-commenced.html
  7. Tong, A., Soni, A., & Sophia, D. (2024, November 1). Big Tech’s AI splurge worries investors about returns. Reutershttps://www.reuters.com/technology/artificial-intelligence/meta-microsoft-lift-ai-spending-worrying-wall-street-ahead-amazon-results-2024-10-31/
  8. Dontsov, A., Korzh, D., Zhavoronkin, A., Mikheev, B., Bobkov, D., Alanov, A., Rogov, O. Y., Oseledets, I., & Tutubalina, E. (2024). CLEAR: Character unlearning in textual and visual modalities. arXiv[Cs.CV]. Retrieved from https://arxiv.org/abs/2410.18057
  9. therem/CLEAR · Datasets at Hugging Face. (2024). https://huggingface.co/datasets/therem/CLEAR
  10. Bowen, D., Murphy, B., Cai, W., Khachaturov, D., Gleave, A., & Pelrine, K. (2024). Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws. arXiv [Cs.CR]. Retrieved from http://arxiv.org/abs/2408.02946 
  11. Bowen, D. (2024, October 30). GPT-4O Guardrails gone: Data Poisoning & Jailbreak-Tuning. FAR.AI. https://far.ai/post/2024-10-poisoning/

 

728x90