10월 1-2주차 주요 테크 뉴스:
- Liquid Foundation Models (LFMs) releases
- Cross capabilities of LLMs by Meta
- Depth Pro by Apple
- Nobel Prize goes to AI researchers
Liquid Foundation Models
기술보고서: https://www.liquid.ai/liquid-foundation-models
스타트업 Liquid AI가 개발 중인 Liquid Neural Network(이하 LNN)는 연속적인 데이터 —시계열 데이터를 비롯한 영상, 텍스트, 신호, … 등등— 를 좀 더 효율적으로 처리할 수 있도록 개발된 범용적인(general-purpose) 모델이라고 합니다. Liquid는 액체를 의미하는데, 이름처럼 유동성이 큰 특징인 것 같아요. 2021년에 Hasani et al.이 제안한 Liquid Time-Constant의 구조(?)는 기존 RNN의 은닉층의 식(equation)에 변화를 줘서, 입력 길이에 따른 동적 할당이 가능하게끔 했대요. 이 이후로도 신경망 구조의 여러 요소들에 유동성을 부여하는 연구와 state-space 모델에 대한 연구를 지속해오면서 LNN 개발이 가속화됐고, 그렇게 최근에 LFM을 출시했다는군요(급마무리).
여기는 깃허브 주소입니다: https://github.com/Decentralised-AI/LFM-Liquid-AI-Liquid-Foundation-Models
GitHub - Decentralised-AI/LFM-Liquid-AI-Liquid-Foundation-Models: An open source implementation of LFMs from Liquid AI: Liquid F
An open source implementation of LFMs from Liquid AI: Liquid Foundation Models - Decentralised-AI/LFM-Liquid-AI-Liquid-Foundation-Models
github.com
깃허브 리드미 페이지에 따르면, 주요 특징인 좋은 응용성(adaptivity)과 더불어 최근 연구 트렌드인 MoE, weight sharing 등의 특징들도 함께 가지고 있어요. Token 및 channel mixing도 지원하기 때문에 길이가 긴 입력도 효율적으로 처리한다는 것도 두드러지는 특징인 듯하구요. 성능도 기존의 LLM과 비교했을 때 준수한 편이라, 앞으로의 발전이 더욱 기대됩니다.
Cross Capabilities of LLMs
메타의 벤치마크 소식입니다. Cross capability라는 개념을 함께 제시했는데, 서로 다른 종류의 스킬을 함께 사용할 수 있는 능력으로 생각하면 될 듯합니다. 가령, HTML & CSS 코드를 제시하면서 "이 웹이 무슨 용도인지 알려줘," 같은 질문을 하면, 장문의 입력에 대한 이해와 코딩 스킬 모두가 필요한 것이죠. 이 포스트에서는 적당히 종합 역량이라고 번역을 하도록 합시다ㅋㅋ
이를 평가하기 위한 벤치마크 데이터셋 CrossEval에서 평가하는 개별 역량 및 종합 역량은 아래와 같습니다:
- Individual Capabilities:
- English
- Reasoning
- Coding
- Image Recognition
- Tool Use
- Long Context
- Spanish
- Cross Capabilities:
- Coding & Reasoning
- Image Recognition & Reasoning
- Tool Use & Coding
- Tool Use & Reasoning
- Long Context & Coding
- Spanish & Reasoning
- Spanish & Image Recognition
ㅋㅋ CrossEval 2.0이 나온다면 다른 스킬을 추가해서 발표하려나.. 아무튼 이에 대한 모델별 성능은 아래와 같다고 하는군요:
GPT-4o1은 과연 어땠을까..
LNN도 그렇고 왠지 LLM 연구들이 LLM의 요소 하나하나를 분석하는 방향으로 이루어지는 것 같다는 성급한 일반화의 오류를 범해봅니다. 저는 늘 지금의 transformer 패러다임을 완전히 뒤바꾸는 breakthrough가 되는 모델 구조가 등장하길 기대하고 있는데 그러기엔 아직 멀었나봐요..
Depth Pro
Apple이 Depth Pro라는 새로운 모델을 발표했습니다. 고화질 depth map을 생성하는 모델인데, 카메라의 세부 정보 등이 없어도 높은 정확도로 생성이 가능하다고 하네요.
모델을 학습시킬 때에는 합성(synthetic) 데이터와 실제 데이터를 적절히 섞어 훈련을 하되, 데이터별로 다른 손실함수를 정의해 훈련에 사용했다고 해요. 즉, 구체적인 카메라 정보가 담긴 데이터의 경우와 그렇지 않은 경우에 사용되는 손실함수가 다른 셈이죠. 합성 데이터를 사용한 이유는, 말 그대로 합성되었기 때문에 오히려 픽셀 단위로 ground-truth 수치가 정확해서 잡음이 많은 실제 데이터보다 학습에 활용되기에 적절했기 때문이라는군요. (끄덕..)
또, 이 모델의 강점인 미세한 모서리 부분(이미지에서 토끼나 고양이의 털 부분)을 정확히 측정하는 걸 보이기 위해 평가 메트릭도 새롭게 정의했습니다. 직관적으로 생각했을 때, 이웃하는 두 픽셀의 depth 값이 $t\%$(하이퍼파라미터 값) 이상 차이가 나면 그 둘 사이에 occluding contour, 즉 경계선이 존재한다고 할 수 있으니 이걸로 contour map을 만들 수 있고, 이 개념을 바탕으로 precision, recall, 그리고 F1 score를 정의할 수 있어요. 실험 결과 F1 score에서 baseline 모델에 비해 높은 점수를 기록했습니다.
짜증날 정도로 고화질.. 심지어 GPU 기준으로 생성 시간이 0.3초라는데, 애플이 몇 달 전 포기했던 자율주행차량에 대한 연구를 재개할 수도 있지 않을까 하는 막연한 추측을 해봅니다. 실시간으로 고화질의 전후방 파악 및 거리 측정이 가능한 모델을 장착한다면 장롱면허인 저보다 훨씬 믿음직한 자동차가 되지 않을까요😂 근데 이래놓고 Measure에다가만 장착하면 좀 어이없을 듯.. 아무쪼록 애플의 행보를 응원합니다.
2024 Nobel Prize Winner
CEST 기준 7일부터 14일까지가 노벨상 수상자의 발표 기간인데요, 노벨 물리학상과 화학상의 수여자가 모두 AI 연구자들이라는 점이 화제가 되었습니다.
- 노벨 물리학상: John Hopfield & Geoffrey Hinton - 현재 모든 필드에서 활용되고 있다 해도 과언이 아닌 머신 러닝에 물리학 개념을 접목시켜 AI 연구의 초석을 다진 연구자들이라고 합니다. 홉필드는 원자의 스핀 원리를 이용한 신경망 Hopfield network를 개발하여 패턴을 재구성하고 저장하는 방법을 고안했습니다. 힌튼은 이 신경망을 근간으로 하여 통계물리학을 접목시킨 볼츠만 머신을 개발했함으로써 기계가 데이터의 특성을 학습하고 인지하도록 했다는 공로를 인정받아 노벨 물리학상을 수상했습니다.
- 노벨 화학상: David Baker, Demis Hassabis & John Jumper - 베이커는 전산생물학자인데요, 2003년 아미노산을 이용해 새로운 단백질 구조를 고안하는 데 성공했고, 이 연구를 이어나가 하사비스와 점퍼가 딥마인드에서 단백질 구조를 예측하는 모델 알파폴드2를 개발합니다. 그럼으로써 단백질 합성의 '비밀을 풀었다(crack the code)'는 공로를 세웠다고 하네요.
노벨상은 특히 물리학, 화학 등의 자연과학 학문의 경우 지금껏 전통적인 물리/화학 연구에게 수여되어 왔는데, 올해에는 이례적으로 AI가 활용된 연구들에게 수여했다는 점이 주목할 만해요. 그만큼 AI가 현재의 대세임을 인식한 것이 아닌가, 하는 생각이 들어요.
그나저나 힌튼은 작년에 AI의 위험성을 경고하면서 구글을 퇴사한 바 있는데, AI에 대한 연구로 노벨 물리학상을 수상했다는 점이 상당히 재미있네요.
BTW, 다른 무엇보다도 한강 작가의 노벨상 수상을 축하하며.. 사실 블로그 주인장은 인문학에도 관심이 많고, 불과 두세 달 전 한강 작가의 『소년이 온다』와 『작별하지 않는다』의 여운에 한참을 허우적댔었어요. 이건 뭐라도 받아야 하는 대작이다,하고 생각하고 있었는데 노벨상을 받으시네요! 한강 만만세^_^
또 알찬 소식으로 돌아오겠습니다!
Reference
- From Liquid Neural Networks to Liquid Foundation models. Liquid AI: Build capable and efficient general-purpose AI systems at every scale. (n.d.). https://www.liquid.ai/blog/liquid-neural-networks-research
- Hasani, R., Lechner, M., Amini, A., Rus, D., & Grosu, R. (2021). Liquid Time-constant Networks. Proceedings of the AAAI Conference on Artificial Intelligence, 35(9), 7657-7666. https://doi.org/10.1609/aaai.v35i9.16936
- Law of the weakest link: Cross capabilities of large language models. Cross Capabilities of LLMs. (n.d.). https://www.llm-cross-capabilities.org/
- Bochkovskii, A., Delaunoy, A., Germain, H., Santos, M., Zhou, Y., Richter, S. R., & Koltun, V. (2024). Depth Pro: Sharp Monocular Metric Depth in Less Than a Second. arXiv [Cs.CV]. Retrieved from http://arxiv.org/abs/2410.02073
- Press release. NobelPrize.org. Nobel Prize Outreach AB 2024. Thu. 10 Oct 2024. <https://www.nobelprize.org/prizes/chemistry/2024/press-release/>
- Press release. NobelPrize.org. Nobel Prize Outreach AB 2024. Thu. 10 Oct 2024. <https://www.nobelprize.org/prizes/physics/2024/press-release/>
'newsie' 카테고리의 다른 글
[Fortnightly Tech Digest] Special Topic: Agentic RAG (0) | 2024.11.24 |
---|---|
[Fortnightly Tech Digest] October-November Crossover (6) | 2024.11.08 |
[Fortnightly Tech Digest] October's Second Half (9) | 2024.10.26 |
Mixture of Experts (2) | 2024.07.18 |
KAN: Kolmogorov-Arnold Network (0) | 2024.05.19 |