10월 3-4주차 주요 뉴스
- 빅테크의 원전 투자
- OpenAI의 MLE-Bench
- State of AI Report 2024
- MedNIST Dataset & Benchmark
Big Tech on Nuclear Power
*이 단락은 데일리 뉴스레터 The Neuron의 내용을 참고하여 작성했습니다.
아시다시피 AI는 엄청난 양의 전력을 필요로 하는 기술입니다. GPT-3를 한 번 학습시키는 데 필요한 전력량은 130개의 가정에서 1년 동안 사용하는 전력량과 맞먹는다고 하죠[1]. 그래서 GPU 대신 FPGA, ASIC 등의 연산장치가 최근에 주목을 받기도 했고, 모델도 175B이었던 GPT-3에 비해 최근까지도 가벼운 모델들이 출시되었어요. 요즘은 MoE로 전력 소모를 최소화하되 파라미터 수를 늘리는 기법을 사용한대요. Mistral AI의 8x7B (총 46.7B개의 파라미터) 모델이 대표적이고요[2].
그런데도 전력 소모 문제가 해결이 안 됐는지, 구글 등의 빅테크 기업들이 원자력 발전소를 짓는 방향으로 해결책을 모색 중이라고 합니다. ㄴㅇㄱ 구글은 원전 스타트업인 Kairos Power에서, 마이크로소프트는 Constellation Energy에서 전력을 사용하겠다는 계약을 체결했어요[3,4]. 덕분에 콘스텔레이션 에너지는 주가가 오르고 있고..(얼른 사러 가는 🐜) 왜 이렇게까지 하냐면, 계속적으로 AI가 소모하는 전력을 줄이기 위한 시도를 하고는 있지만, ChatGPT는 물론 Claude와 다른 AI 모델들이 대거 등장함에 따라 전력이 점점 더 많이 필요하게 됐기 때문이에요. 국제에너지기구(International Energy Agency, IEA)의 보고에 따르면, 2026년에는 데이터센터의 전력소모량이 지금의 두 배가 될 거라고 합니다. 이러다간 지구가 AI 때문에 거덜나지 않을까, 싶을 정도인데요🥲 제가 AI 연구를 계속해도 되는 걸까요..?
OpenAI's MLE-Bench
10월 9일에 preprint가 올라왔기 때문에 엄밀히는 3-4주차 소식은 아니지만.. 아무튼.
MLE-Bench는 이름 그대로 MLE 벤치마크를 의미하는데요, 여기서 MLE란 Machine Learning Engineering, 즉 데이터가 주어졌을 때 데이터를 분석하고 모델을 생성/훈련하는 과정 등을 통칭하는 표현이에요[6]. 요즘 트렌드인 AI agent와 이들의 핵심 역량 중 하나로 여겨지는 MLE를 평가하는, "an offline Kaggle competition environment"를 만들었다고 하는군요. AI agent의 역량을 평가하기 위한 핵심 Kaggle 대회라고 생각하면 될 것 같아요. 총 75개의 과제로 구성되어 있는데, 각각은 (1) 과제에 대한 가이드(instruction), (2) Kaggle에서 제공하는 데이터셋, (3) 채점 코드, (4) 리더보드 스냅샷으로 구성이 되어 있다고 합니다. 사실상 우리가 보는 Kaggle 데이터셋이랑 다를 바가 없네요.. 다양한 난이도로 적절히 과제를 선정했고, 표절 등의 요소도 고려하여 규칙을 세웠다고 해요. 평가는 리더보드와 상위 퍼센티지에 따라 부여되는 메달을 활용했구요.
GPT-4o모델로 고정시키고 scaffold(agent를 학습시키는 방법론&데이터 정도로 이해했어요)를 다양하게 시도하며 agent를 만들어보니, AIDE/ResearchAgent/CodeActAgent 중 AIDE가 가장 높은 성능을 보여줬다고 합니다. AIDE를 채택하고 모델을 바꿔가며(o1-preview, 4o, claude 3.5 sonnet, llama 3.1 405B) 실험한 결과로는, o1 preview가 다른 모델들에 비해 압도적인 성능을 보여줬대요.
Discussion point로 종종 코드를 제출하는 데 실패하는 경우가 있다는 것을 제시했습니다. 프롬프트에 instruction을 넣어주었는데도 o1을 제외한 다른 모델들의 경우 성공적인 제출이 60% 미만임을 확인할 수 있어요.
o1이 어쩌면 나보다도 잘할 것 같다는 불안감이 엄습해오는..
AI가 점점 발전함에 따라 모델을 평가하는 벤치마크들도 함께 발전하는 것을 보는 재미가 있는 것 같아요. ChatGPT가 나오기 전에 유명했던 QA 벤치마크로는 구글의 NaturalQuestion이 있는데, 요즘은 아무도 안 쓰죠[8]. 나름 틈틈이 논문을 읽어가면서 트렌드를 따라가려고 노력 중이긴 한데, 이렇게 처음 들어보는 벤치마크의 이름이 논문에 나올 때마다 스스로의 부족함을 뼈저리게 느끼는 것 같아요.
State of AI Report 2024
한 해의 AI 트렌드를 짚어보고 앞으로의 전망이 어떨지 분석하는 연간 리포트예요. 올해로 7번째라고 하는데요, 작년과 비교해 보면서 살펴보면 좋을 것 같네요. 링크는 레퍼런스 8번과 9번을 참고해주시면 됩니다.
본격적인 내용을 다루기에 앞서, 이 리포트에서 사용할 용어 및 약어들에 대해 간략하게 정의하고 있어요. 23년과 24년이 정확히 동일한 것을 보니, 새롭게 등장한 개념이나 패러다임이 있는 것 같지는 않아요. 그래도 어떤 것들을 정의하고 있는지 몇 가지만 살펴보고 갈게요.
- AI Agent: 2023년에는 에이전트 연구가 지금만큼 본격적이지는 않았던 듯한데, "an AI-powered system that can take actions in an environment"라고 정의하며 LLM의 에이전트로서의 가능성을 공통적으로 언급하고 있어요.
- Diffusion: 이 용어는 설명이 업데이트 되었어요. 이미지 생성의 선두에 있다는 설명을, 이미지 생성과 단백질 설계의 선두에 있다고 업데이트 되었네요. Alphafold 3가 올해 공개되었는데 —시간 참 빠르다..— Alphafold 2와의 차이점 중 하나는 diffusion module의 사용이에요[10]. 최근에는 Alphafold의 개발자인 딥마인드의 데미스 하사비스와 존 점퍼가 노벨상을 수상하기까지 했으니, 이런 소식들을 반영한 것 같아요.
- Prompt: 일반적으로 자연어로 작성되어 LLM에게 무언가를 생성하거나 '행동을 하도록' 하는 명령이라고 정의되어 있어요. 에이전트로서의 동작을 가능하게끔 한다는 것을 의미적으로 내포한다는 점이 눈에 띄어요.
이 외에도 기본적인 머신러닝 용어인 ML, SSL(Self-Supervised Learning) 등을 비롯해 LLM, AGI, AI Safety 등 광범위하게 용어를 정의하고 있어요.
2023 레포트에서 예측했던 사항들이 실제로 2024에 얼마나 실현이 되었는지를 살펴보면, (아직 2024년이 다 가지 않은 시점에서) 반 이상은 맞혔다고 볼 수 있대요. 예측이 정확히 들어맞은 건 다음과 같아요.
- 헐리우드 수준의 영상 제작에 생성형 AI가 사용될 것이다.
- 미국의 연방거래위원회(FTC) 또는 영국의 경쟁시장국(CMA)에서 마이크로소프트-오픈AI의 파트너십에 대해 조사할 것이다.
- AI 거버넌스는 아직 하이레벨 & 자발적인 수준에 머물러 있을 것이다.
- AI가 생성한 음악이 빌보트 차트 Hot 100, Top 10, 또는 스포티파이 Top Hit 2024에 들어갈 것이다.
- AI 인퍼런스 사용량 및 비용 증가에 따라, 오픈AI처럼 큰 AI 회사들(빅테크 포함)의 인퍼런스에 특화된 AI 칩(GPU, FPGA 등)에 대한 수요/투자가 증가할 것이다.
이정도가 있네요. 예측하는 이벤트가 굉장히 상세한 편이에요.
슬라이드가 213페이지라ㅜㅜ 러프하게 어떤 내용이 있는지 이미지로 간단히 살펴보고 2024의 예측을 살펴보도록 합시다.
연구와 산업 분야뿐만 아니라 정치 및 법/윤리 동향도 짚어줘서 좋은 것 같아요. 대선이 얼마 남지 않았는데, AI를 활용한 카멀라 vs 트럼프에 대한 예측이 쏟아져 나오고 있는데, 이게 실제로 대선에 어떤 영향을 미칠지는 여전히 미지수라고 합니다. 다른 재밌는 소식도 많군요.
레포트에서 예측하고 있는 향후 12개월 안에 일어날 수 있는 일들이에요. 몇 가지만 살펴보면,
- 주권국(sovereign state)의 미국 대규모 AI 랩에 대한 13조원 이상의 투자가 있을 것이고, 이로 인해 국가 안보에 대한 검토와 조사가 있을 거래요.
- 코딩을 전혀 할 줄 모르는 사람이 개발한 —AI 툴만 사용해서겠죠— 웹사이트가 바이럴을 탈 것 같대요.
- 데이터 수집 관련한 소송이 재판까지 가는 일이 생기고, 이때문에 AI 발전을 선두하는 기관들이 데이터 수집 방식에 변화를 줄 거라 예측하고 있어요.
- closed 모델인 OpenAI의 o1에 대한 오픈 소스 대체제의 모델이 등장할 것이고, 이게 궁극적으로는 여러 벤치마크들에 대해서 o1을 능가하는 성능을 보여줄 거라고 보고 있어요.
이 외에도 흥미로운 예측이 많으니 한번 살펴보시길 바라요!
MedNIST Dataset & Benchmark
마지막 소식은 제 백그라운드와 관련된 소식이라 위 세 개만큼의 임팩트를 자랑하진 않지만, 중요한 연구인 것 같아 이번 포스트에서 소개하고자 합니다.
의료 쪽에서도 꾸준히 NLP에 대한 수요가 있어 왔어요. 다만, 의료 분야는 특히 데이터 수급 및 학습에의 이용에 제약이 많기 때문에, LLM의 등장과 함께 연구가 가속화된 것도 사실이지만, 의사도 엔지니어도 여전히 데이터에 관해서는 골머리를 썩히고 있다고 해요. 일례로 병원마다 데이터 형식 및 용어/기호가 전부 다른 점(약어를 사용할 경우) 등이 있어요. 이 연구에서도, 의료 분야에서는 특히 데이터의 형식 등 통일되어야 하는 것이 많아서 '표준화(standardize)'하기 위해 전처리 과정이 매우 중요하고 그만큼 전력을 다하는 작업이라는 점이 연구의 동기라고 언급하고 있어요.
MedNIST 데이터셋은 연구진의 표현을 빌리자면 메타 데이터셋이에요. 특정 과제를 훈련/평가하기 위한 데이터의 표준화 작업이 어려우니까, instruction-tuning으로 우회해서 LLM을 훈련시킬 수 있는 데이터셋을 제공하겠다는 뜻이죠. 아래 표를 보면,
원래의 QA 데이터라면 "T3/T4 호르몬이 감소할 경우 반대로 증가하는 호르몬이 뭐야?", "TSH" 이런 식으로 질문과 정답 쌍이 구성되어 있는 것이 일반적이에요. 그런데 그렇게 하지 않고, 존재하는 다양한 QA 데이터를 모으고 instruction을 추가해줌으로써 과제를 변형하는 느낌이죠.
이런 느낌으로.. 근데 introduction에서 언급한 데이터 표준화 작업은 제가 생각했던 그런 이슈가 아닌가봅니다;; 선정한 task들은 전부 전형적인 NLP task인데, 이것을 통합해 instruction-tuning 데이터셋으로 변형한 벤치마크를 만들었다고 확실하게 표명해주면 더 좋았을 것 같네요ㅜㅜ
이데이터셋 구성에서 NER이 압도적인 비중을 차지하는 것을 확인할 수 있어요. 다른 데이터셋이 절대적으로 부족해서 이런 통계가 나타나는 건지 모르겠으나, 이렇게 데이터의 양적 차이가 심한 상황이라면 instruction-tuning이라는 하나의 과제로 통일해버리는 것도 좋은 전략이라고 볼 수 있을 것 같아요. 다만 특정 task에 대해서만 지나치게 성능이 좋거나 그 반대일 경우, 그런 문제가 묻힐 수 있다는 단점은 있을 듯해요.
어쨌든 task를 통합한 대신, 각 instance마다 open generation을 비롯해 명확한 정답이 있는 인스턴스도 많기 때문에, 각자에 상응하는 평가 메트릭(Rouge-L, F1, MSE, EM 등)을 활용했다고 합니다.
이런 데이터셋 연구는 단지 데이터셋 공개에 그치지 않고 벤치마크 연구로 확장해서 모델들의 성능 평가를 함께 하는 경우가 많아요. 이 연구에서는 해당 데이터셋으로 훈련시킨 모델과, GPT-4o, Medical NLP의 대표 모델들(BioMistral 등)을 비교했네요. 가장 높은 성능을 보여준 모델은 MMed-Llama-3-8B를 이 데이터셋으로 튜닝한 모델..인데 그럼 당연히 잘해야 하는 거 아닌가.. 아무튼 그렇다네요🙄
뭔가.. 갑자기 급마무리하는 느낌이 돼버렸지만😭 어쨌든 새로운 데이터셋 벤치마크가 나왔다는 사실 자체만으로도 의료NLP 연구에서는 희소식일 것 같습니다. 또 다른 발전된 연구가 나오길 바라며..
다음에도 재밌는 소식 가져오겠습니당 이만 총총
Reference
- Vincent, J. (2024, February 16). How much electricity do AI generators consume? The Verge. https://www.theverge.com/24066646/ai-electricity-energy-watts-generative-consumption
- Neves, M. C. (2024, September 25). LLM mixture of experts explained. TensorOps. https://www.tensorops.ai/post/what-is-mixture-of-experts-llm
- De Chant, T. (2024, October 14). Google signed a deal to power data centers with nuclear micro-reactors from Kairos — but the 2030 timeline is very optimistic. TechCrunch. https://techcrunch.com/2024/10/14/google-signed-a-deal-to-power-data-centers-with-nuclear-micro-reactors-from-kairos-but-the-2030-timeline-is-very-optimistic/
- Sherman, N. (2024, September 20). Three Mile Island nuclear site to reopen in Microsoft deal. BBC. https://www.bbc.com/news/articles/cx25v2d7zexo
- Gooding, M. (2024, January 26). Global data center electricity use to double by 2026 - IEA report. Data Center Dynamics. https://www.datacenterdynamics.com/en/news/global-data-center-electricity-use-to-double-by-2026-report/
- Rodriguez, J. (2024, October 16). Inside OpenAI’s MLE-Bench: a new benchmark for evaluating machine learning engineering capabilities of AI agents. Medium. https://pub.towardsai.net/inside-openais-mle-bench-a-new-benchmark-for-evaluating-machine-learning-engineering-capabilities-a8bdaf0c2571
- Chan, J. S., Chowdhury, N., Jaffe, O., Aung, J., Sherburn, D., Mays, E., … Mądry, A. (2024). MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv [Cs.CL]. Retrieved from http://arxiv.org/abs/2410.07095
- Benaich, N. & Air Street Capital (2024, October 10). State of AI report. https://www.stateof.ai/
- Benaich, N. & Air Street Capital (2023, October 12). State of AI report. https://www.stateof.ai/2023
- AlphaFold3 리뷰 - Google DeepMind, 신약 개발의 새로운 패러다임을 제시하다. (2024). https://hyperlab.hits.ai/blog/AlphaFold3-Review.
- Han, W., Fang, M., Zhang, Z., Yin, Y., Song, Z., Chen, L., … Chen, Q. (2024). MedINST: Meta Dataset of Biomedical Instructions. arXiv [Cs.CL]. Retrieved from http://arxiv.org/abs/2410.13458
'newsie' 카테고리의 다른 글
[Fortnightly Tech Digest] Special Topic: Agentic RAG (0) | 2024.11.24 |
---|---|
[Fortnightly Tech Digest] October-November Crossover (6) | 2024.11.08 |
[Fortnightly Tech Digest] October's First Half (1) | 2024.10.12 |
Mixture of Experts (2) | 2024.07.18 |
KAN: Kolmogorov-Arnold Network (0) | 2024.05.19 |