1월 4-5주차 주요 뉴스
- DeepSeek R1 crushing America
- Stargate: Trump's Ambition on AI
- (Paper) Murre: Multi-Hop Table Retrieval with Removal for Open-Domain Text-to-SQL
Tech News Briefing
The DeepSeek Effect
얼마 전 AI의 신흥 강자가 나와 미국의 빅 테크와 주식 시장을 쑥대밭으로 만들어 놓았습니다. DeepSeek 사의 최신 모델 DeepSeek-R1(이하 R1)인데요, 다양한 벤치마크에서 o1은 물론 다른 모델들보다도 월등히 뛰어난 성능을 보여주고 있어요. R1은 기존 모델들과 아래와 같은 점에서 차별점을 가져요[1, 2].
- 모델 이름에서 R은 강화학습(Reinforcement Learning, 이하 RL)을 의미해요. 제작년부터 꾸준히 AI의 튜닝에 많이 활용되었던 방법론인데, 일반적으로는 모델을 먼저 fine-tuning한 후 RL을 적용하곤 했어요. 대표적인 예시가 RLHF(Reinforcement Learning from Human Feedback)이고요. 그런데 R1-Zero 모델은 선행학습만 거친 모델에 바로 RL을 적용했대요. 정확히는 GRPO 방식인데, 자세한 내용은 공식 논문을 참고해주시고요! 기존 연구들은 일반적으로 RL을 할 때 필요한 리워드 모델 —RL에서 행위자의 행위에 보상/패널티를 부과하는 모델— 로 또 다른 인공지능을 썼는데, 특이하게도 R1-Zero 모델을 개발할 때에는 규칙 기반의(rule-based) 리워드 모델을 써서 학습에 드는 비용을 줄였대요. 신경망 기반의 모델을 쓰게 되면 그것도 학습시켜야 하거든요. 어쨌든 RL을 다이렉트로 적용함으로써 연구진은 질문-정답 쌍으로 구성된 데이터를 추가적으로 수집하지 않고도 모델에게 복잡한 추론을 훈련시킬 수 있었다고 합니다. 아주 경제적인 방식이죠!
- R1은 기존 모델인 DeepSeek-V3-Base를 약간의 데이터로 학습시킨 후 RL을 두 번 적용했대요. 두 번째 RL은 또 추론 데이터와 비추론 데이터를 구분해서 각각에 대한 다른 리워드 모델을 사용했다고 해요.
이야기가 좀 길어졌는데, 어쨌든 이러한 방식으로 학습시켜서 압도적인 성능을 낼 수 있었대요. 여담인데, 수학 문제를 푸는 과정에서 R1-Zero는 아래와 같은 'Aha-moment'가 포함된 응답을 생성하기도 했다네요.
이 정도면 사람 아닌가요?!
R1의 또 다른 강점은 다른 AI와 다르게 비싼 컴퓨팅 자원을 쓰지 않는다는 점이에요[1]. 엔비디아의 H100, A100 같은 비싼 GPU 없이도 충분히 잘 돌아간다는데, 어떤 전문가는 o1을 썼을 때 370달러가 들었던 실험이 R1으로는 10달러 이하로도 할 수 있다며 우호적인 입장을 보였네요[4].
이 때문에 미국의 기술주들이 풍비박산되기 시작했어요. 몇 달 전, AI 연구 개발에 드는 전력을 충당하기 위해 빅 테크 기업들이 원전에 대거 투자한 일이 있었는데, 이번 R1을 발표함으로써 그보다 비용효율적으로 투자해도 o1 이상의 성능을 낼 수 있다는 게 입증되었기 때문이에요. 덕분에 젠슨 황의 재산은 며칠만에 1천억 원 넘게 축소되었고[5], 오클로를 비롯한 전기 관련주도 급격히 하락하고 있어요. 으악 내 돈..
그래서인지 R1에 비판적인 시각과 함께 의심의 눈초리를 던지는 사람들이 많아요. 일례로, OpenAI는 자사의 모델이 DeepSeek의 지식 증류(distillation) 기법에 활용된 것 같다면서 성명을 냈어요[6]. 미국의 해군은 데이터와 관련된 보안 문제를 경계하면서 DeepSeek의 사용을 금지시켰고요[7]. 그런데 사실 증류를 엄밀하게 하려면, 추출하고자 하는 모델의 마지막 층인 softmax layer에서의 값이 필요한데 OpenAI의 모델들처럼 블랙박스인 경우에는 이 방법을 사용할 수가 없어요. 그래서 불가피하게 모델이 생성한 답변을 바탕으로 타겟 모델을 학습시키는 경우가 많은데, 이는 사실 매우 흔한 연구 방법론이에요. OpenAI는 물론 해군도 데이터 도용이나 보안에 관련된 어떠한 증거도 발표하지 않고 있고요. DeepSeek를 견제하기 위해 중국에 대한 부정적인 선입견을 적극 활용하는 듯한 낌새가 느껴지는 건 기분 탓일까요🥲
앞으로 미국의 증시와 빅 테크의 동향은 물론 트럼프 정권의 반응도 예의주시 해야겠어요.
Stargate and Beyond
AI의 판도를 뒤흔든 R1은 잠시 제쳐두고, 빅 테크와 새로운 트럼프 행정부가 그간 AI 연구개발에 얼마나 낙관적으로(?) 투자하고 있었는지도 살펴봅시다. 현지 시간으로 1월 20일, 트럼프 행정부는 취임식 후에 OpenAI의 샘 올트먼, Softbank의 마사요시 손, Oracle의 의장 래리 엘리슨과 함께 Stargate 프로젝트를 발표했어요. 이는 AI 연구개발의 인프라 구축을 위한 7천억 원 규모의 프로젝트의 제목이자 이를 위해 설립된 회사의 이름이에요. 앞서 언급된 세 회사가 주도하여 미국 전역에 데이터 센터를 건설하려고 한대요. Softbank가 자금 조달을, OpenAI가 프로젝트의 운영을, 그리고 Oracle이 데이터 센터 설립을 위한 기술력을 제공하는 구조입니다. 트럼프 행정부가 주장하기로는 약 10만 개의 일자리를 창출할 수 있는 '역사상 가장 큰 규모의 AI 인프라 구축 프로젝트'라는군요[8]. 과연..
Stargate를 통해서도 빤히 보이지만, 트럼프 행정부가 시행하려는 정책들 중 가장 주목할 만한 점이 바로 AI 연구개발 촉진일 것 같아요. 이 프로젝트뿐만 아니라 미국의 AI 기술 선두를 위한 장벽 완화에 관한 행정 명령(Removing Barrieres to American Leadership in Artificial Intelligence)을 발표하기도 했거든요. 요약하자면, 바이든 정부의 행정 명령(이하 EO) 제14110호에 따라 시행된 모든 조치들을 전부 철회하겠다는 내용입니다[9]. EO 14110은 AI 연구 개발에 관한 규제(regulation)인데요, AI를 논할 때 항상 대두되는 문제인 데이터 프라이버시, 딥페이크 이슈 등을 인식해, 기업으로 하여금 AI 모델에 대한 안전성 검사를 시행하고 그에 대한 결과를 보고하도록 했어요. 또 개인정보를 확실히 보호할 수 있도록 규제 지침을 만들게 했고요[10]. 기업 입장에서는 빠르게 발전하는 기술을 상용화하기도 급급할 텐데 까다롭고 번거로운 절차를 거쳐야 한다는 게 그리 달갑진 않았겠죠. 또, 제 개인적인 생각일 뿐이지만, 트럼프 행정부의 일련의 조치들을 보면 그의 사업가적인 면모가 다분히 보여요. 회사를 운영해본 사람으로서, '돈이 되는' 기술인 AI를 미국이 선두하려면 그에 대한 제약은 최대한 줄여야 한다고 생각한 것 같아요. 다만 EO 14110에서 다루고 있는 문제가 결코 가벼운 문제는 아니기 때문에, 그리고 DeepSeek의 도래로 인해 보안 문제에 민감해졌기 때문에, 트럼프가 어떤 식으로 프라이버시 및 보안을 규제할지도 잘 살펴봐야 할 것 같아요.
Papers Overview
Murre: Multi-Hop Table Retrieval with Removal for Open-Domain Text-to-SQL [11]
CoLing이라는 학회의 Proceedings로 선정된 논문 중 하나입니다. 굉장히 직관적이고 간단한 테크닉인데도 좋은 성능을 보여줌으로써 연구의 설득력을 높인 것 같다는 생각이 들어서 소개하고 싶었어요.
논문의 내용을 설명하기에 앞서, 이 논문을 이해하기 위해 알아야 할 개념들이 있어요:
- Multi-Hop Retrieval: Hop은 한 곳에서 다른 곳으로 점프해서 뛴다는 의미이고, retrieval은 질의(query)를 통해 원하는 정보를 특정 정보 풀(pool)에서 회수한다는 의미로 사용돼요. 종합하면, multi-hop retrieval은 어떤 질의에 필요한 정보를 회수할 때, 필요한 소스(source)를 여러 개 참고해야 하는 경우를 의미해요. 단순히 여러 개의 소스를 참고하는 경우, 특정 소스에 연결된 다른 소스로 넘어가는, 일종의 하이퍼링크 방식 같은 경우 모두 해당돼요.
ex) 영화 <해리포터와 불의 잔>에 출연한 배우들 중 국립극장에서 공연을 해 본 경력이 있는 배우는 누구인가?: (1) <해리포터와 불의 잔> 위키피디아 페이지에 있는 배우진 목록에서, (2) 각 배우들의 위키피디아 페이지를 참고하여 국립극장 연기경력이 있는지 찾아보는 방식으로 답변할 수 있어요. 혹은 (1)을 먼저 찾은 후 (3) 국립극장에서 연기한 배우들 목록을 회수해 교집합을 찾을 수도 있고요. - Open-Domain Text-to-SQL: Closed-domain은 질의에 응답하기 위한 정보 풀을 정해두는 —특정 교과서, 사내 데이터베이스 등등— 경우를 말해요. 이와 반대되는 개념이 open-domain이에요. 어떤 소스를 참고하든 상관없어요. 한편 Text-to-SQL은 자연어로 되어 있는 질의를 데이터베이스 언어(?)인 SQL로 바꾸는 것이에요. 사실 Text-to-SQL은 궁극적으로는 데이터베이스 내에서 검색을 하기 위한 것이기 때문에 반드시 원하는 정보가 포함된 테이블이 존재해야 의미가 있어서, 일반적으로는 open-domain이라는 수식어가 어울리지는 않다고 생각하는데.. 업무 자동화의 측면에서 사람이 사내의 데이터베이스 스키마(schema)를 잘 모르는 경우가 분명 존재할 수 있기 때문에 이런 시도를 하는 것 같기도 해요.
개떡같이 질문해도 찰떡같이 받아줄 수 있는 언어모델을 원하는 …
딱 봐도 논문에서 제시하고 있는 문제가 아주 일반적인 경우는 아니지만, 업무 자동화 시나리오를 상상한다면 충분히 연구가 필요한 문제이기는 해요. 어떤 데이터베이스건 사용자가 그 스키마를 다 알지 못하는 경우도 많고, foreign key로 연결된 테이블 여러 개를 참고해야 원하는 정보를 얻을 수 있는 경우도 많으니까요.
연구진들은 open-domain question answering(이하 ODQA)과 이 문제가 어떤 점에서 다른지를 먼저 명확히 정의하고 있어요. 첫 번째 Hop으로 정보를 회수하고 나면, 그 hop을 통해 회수한 정보에 해당하는 부분은 질의에서 지우고 다음 Hop으로 넘어가도 된다는 점이에요. 사실 명확히 '다르다'고 하기보단, SQL의 문법 상 이렇게 단계적으로 푸는 것이 좀 더 합리적이고 직관적인 것 같아요. 하여튼 연구진은 첫 번째 hop이 끝나면 그 부분을 질의에서 지우고 다음 hop으로 정보를 회수했어요. 의외로 간단하죠?
플로우는 아래와 같아요:
- 데이터베이스 내에 있는 테이블을 전부 벡터화하고, 질의 벡터와 코사인 유사도를 기반으로 벡터 검색을 하여 첫 번째 Hop을 실행*
- LLM이 회수된 정보를 바탕으로 더 필요한 정보가 무엇인지를 판단하여 질의를 수정
- 벡터 검색 반복, 원하는 정보가 모두 회수될 때까지 반복
그림에서 알 수 있듯이 빔 서치(Beam Search)스러운 방식으로 진행하고 있다고 보시면 돼요. 실험 데이터는 SpiderUnion과 BirdUnion이라는 데이터를 썼고, 평가 메트릭은 Text-to-SQL의 실행 정확도(Execution Accuracy)와 더불어 연관된 모든 테이블을 회수한 게 맞는지 확인하는 Recall@k를 선택했다고 해요. 이 연구 이전에 multi-hop 문제를 태클한 경우가 없어서인지, 기본적인 single-hop Text-to-SQL 방법론과 여기서 조금 더 발전된 CRUSH라는 연구가 베이스라인으로 설정되었어요. Multi-Hop Open-Domain Text-to-SQL이 더 연구될 여지가 있다면.. 이 연구가 중요한 베이스라인이 되겠네요! 아주 우수한 결과를 보여줬는데, 표는 블로그 주인장의 귀찮음 이슈로..ㅎㅎ 논문 참고 부탁드립니다🙏🙏
*테이블을 전부 다 벡터화한다고 했는데, 결국 "어떤 테이블이 필요하냐"를 우선적으로 판단한다면 데이터베이스 스키마만 벡터화하는 것이 조금 더 비용효율적이지 않을까 하는 생각이 드네요! 이 부분을 논문에서 언급하고 있지 않아서 의문점으로 남겨봅니다.
새해 복 많이 받으세용~ 이만 총총
[1] deepseek-ai, “GitHub - deepseek-ai/DeepSeek-R1,” GitHub, 2025. https://github.com/deepseek-ai/DeepSeek-R1 (accessed Jan. 30, 2025).
[2] DeepSeek-AI et al., “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,” arXiv.org, 2025. https://arxiv.org/abs/2501.12948 (accessed Jan. 30, 2025).
[3] J. Matthews, “Is DeepSeek’s R1 the OpenAI killer? A game-changing, cost-effective AI alternative emerges! — TFN,” Tech Funding News, Jan. 28, 2025. https://techfundingnews.com/deepseeks-r1-cost-effective-ai-innovation/ (accessed Jan. 30, 2025).
[4] E. Gibney, “China’s cheap, open AI model DeepSeek thrills scientists,” Nature, Jan. 2025, doi: https://doi.org/10.1038/d41586-025-00229-6.
[5] E. Helmore, “Tech billionaires lost almost $100bn in stock market selloff sparked by DeepSeek,” the Guardian, Jan. 28, 2025. https://www.theguardian.com/technology/2025/jan/28/deepseek-selloff (accessed Jan. 30, 2025).
[6] 김경미, “오픈AI·MS ‘中 딥시크, 美 데이터 도용 조사 중,’” 서울경제, Jan. 29, 2025. https://www.sedaily.com/NewsView/2GNVRVRA0O?fbclid=IwY2xjawIHHNFleHRuA2FlbQIxMQABHXyjy0aM9rFPJDzYnlxPEV8Vl7SAYFDdtIP-FNflG20uM-4FjdTVyA5Q6A_aem_blNXhsafRgzLLOSAcolhhQ%EF%BB%BF (accessed Jan. 31, 2025).
[7] H. Field, “U.S. Navy bans use of DeepSeek due to ‘security and ethical concerns,’” CNBC, Jan. 28, 2025. https://www.cnbc.com/2025/01/28/us-navy-restricts-use-of-deepseek-ai-imperative-to-avoid-using.html (accessed Jan. 31, 2025).
[8] C. Duffy, “Trump announces a $500 billion AI infrastructure investment in the US,” CNN, Jan. 21, 2025. https://edition.cnn.com/2025/01/21/tech/openai-oracle-softbank-trump-ai-investment/index.html (accessed Jan. 31, 2025).
[9] “Removing Barriers to American Leadership in Artificial Intelligence,” The White House, Jan. 23, 2025. https://www.whitehouse.gov/presidential-actions/2025/01/removing-barriers-to-american-leadership-in-artificial-intelligence/ (accessed Jan. 31, 2025).
[10] 강태욱, 윤주호, and 강정희, “트럼프 2기 행정부 AI 규제 방향,” 법률신문, 2025. https://www.lawtimes.co.kr/LawFirm-NewsLetter/204904 (accessed Jan. 31, 2025).
[11] X. Zhang, D. Wang, L. Dou, Q. Zhu, and W. Che, ‘MURRE: Multi-Hop Table Retrieval with Removal for Open-Domain Text-to-SQL’, in Proceedings of the 31st International Conference on Computational Linguistics, 2025, pp. 5789–5806.
'newsie' 카테고리의 다른 글
[Fortnightly Tech Digest] Special Topic: Reasoning Model (1) | 2025.02.13 |
---|---|
[Fortnightly Tech Digest] Year-End to New Beginnings (0) | 2025.01.05 |
[Fortnightly Tech Digest] December's First Half (0) | 2024.12.22 |
[Fortnightly Tech Digest] Emergency Leave (1) | 2024.12.09 |
[Fortnightly Tech Digest] Special Topic: Agentic RAG (0) | 2024.11.24 |