인공지능에 관심이 많다면?
매일 AI 소식들을 알차게 전해드리는
AI안테나 뉴스레터를 구독해보세요! (구독하기)
저는 요리하는 걸 좋아해요. 싱싱한 제철 재료와 향신료를 조합해서 음식을 만드는 게 재미있기 때문이죠.
지구 상에는 무궁무진한 요리할 수 있는 재료들이 있습니다. 하지만 식재료에도 한계가 있기 때문에 식재료로 만들 수 있는 요리도 무한대가 되지는 못할 것입니다. 수만가지 조합을 실험한 뒤에는 결국 가장 맛있는 요리 레시피에 정착하게 되겠죠.
인공지능의 세계에서도 비슷한 일들이 벌어집니다. 인공지능이 학습할 수 있는 데이터는 확실히 많지만, 한계가 정해져 있습니다. 지구상의 모든 사람이 생산할 수 있는 데이터의 양으로 말이죠. (외계인이 오지 않는 이상(?)) LLM이라는 요리사는 수많은 식재료를 실험하며 창의적인 요리를 만들어 내겠지만, 대가의 경지에 이르게 된다면 식재료의 한계에 부딪힐 수밖에 없을 것입니다.
LLM은 데이터를 먹고 자란다
최근 몇 년 사이에 AI가 미친 속도로 발전할 수 있게 된 건, ‘데이터’의 힘이 컸습니다. 이는 ‘스케일링의 법칙(Scaling Laws for Neural Language Models)’으로도 설명이 됩니다. 2020년 OpenAI의 연구진이 발표한 "스케일링 법칙"은 모델의 성능이 세 가지 요소에 비례(정확히는 power-law 관계로)한다는 사실을 밝혔습니다. 모델의 매개변수 크기, 학습 데이터의 양, 그리고 컴퓨팅 파워입니다.
데이터가 증가하면 성능이 향상됩니다. 모델 크기를 키우면 키울수록 더 적은 데이터로도 같은 성능이 도달할 수 있습니다. Common Crawl, Books, Wikipedia 등 인터넷에서 수집한 방대한 텍스트 데이터들이 핵심 재료가 되었습니다. 이는 GPT-3, LLaMA, PaLM과 같은 대규모 언어 모델의 개발로 이어졌습니다.
모델은 데이터를 통해 언어의 패턴, 지식, 추론 능력, 그리고 인간의 가치와 선호도를 학습했습니다. 인간이 가장 좋아할만한 요리를 만드는 법을 익혔습니다. 물론 가끔 상한 재료(오염된 데이터)나 너무 비슷한 재료들(편향된 데이터)로 인해 이상한 요리를 만들기도 했지만요.
더 이상 학습할 데이터가 없어!
ChatGPT-4 버전이 나온 이후 계속해서 추론 모델이 나오고 있습니다. 왜 5로 바로 가지 않고 뒤에 o가 붙은 추론 모델이 나오고 있는 걸까요? 혹시 인터넷에서 쓸 수 있는 고품질 데이터를 모두 사용해버려서 더이상 학습시킬 것이 없기 때문이 아닐까요.
오픈AI 공동창립자이자 현재 세이프 인텔리전스를 창업한 일리야 수츠케버는 작년 12월 NeurIPS에서 “우리가 아는 형태의 생성형 AI 모델 사전 훈련은 의심할 여지 없이 끝날 것”이라면서 “컴퓨터 연산 능력은 향상하고 있지만 데이터는 늘지 않고 있다”며 학습 데이터가 부족하다는 점을 지적했습니다.
또한 지금 등장하고 있는 추론 모델(Reasoning Models)은 단순한 패턴 인식을 넘어 복잡한 추론 과정을 수행할 수 있게 되었는데, 이러한 능력을 향상시키기 위해서는 단순한 텍스트 데이터를 넘어선 새로운 형태의 학습 자료가 필요하다는 주장이 제기되고 있습니다.
데이터, 까짓 거 만들어 버려!
데이터 부족 문제에 대한 해결책으로 주목받고 있는 것이 바로 '합성 데이터'(Synthetic Data)입니다. 합성 데이터란 인공지능이 생성한 가상의 데이터로, 실제 데이터의 특성과 패턴을 모방해 만들어집니다. 요리 비유에 집착해보자면, 합성 데이터는 DNA를 변형해서 만든 식품이라고도 할 수 있겠네요. 이론적으로는 무제한으로 데이터를 생성할 수 있고, 개인정보에 대한 걱정이 없습니다.
현재 합성 데이터를 생성하는 주요 방법으로는 기존 AI 모델을 사용하여 새로운 텍스트를 생성하는 방법, 복잡한 추론 과정이 포함된 데이터를 생성하는 방법, 그리고 다중 에이전트 상호작용을 통해 더 자연스러운 대화 데이터를 생성하는 방법 등이 있습니다. 참고로 저도 합성 데이터를 만들어봤던 적이 있는데 꽤나 고생스러운 작업이였습니다. (노가다..)
합성 데이터는 최신 모델의 학습 과정에 활용되고 있습니다. 오픈AI의GPT-4.5, 메타의 라마 3.1, 앤트로픽의 클로드 3.5 소네트, xAI의 그록-3 등이 학습에 합성 데이터를 사용했다고 알려졌습니다. LLM 외에도 특수한 도메인 지식이 필요한 영역에서도 활발히 사용 중이죠.
이걸로는 부족해...
그렇다고 합성 데이터가 모든 문제를 해결해 주는 것은 아닙니다. 합성 데이터는 AI가 만들어낸 것이기 때문에 이 데이터로 다시 AI를 학습시킨다면 모델이 자신의 오류와 편향을 증폭시킬 수 있습니다.
옥스퍼드에서도 비슷한 연구를 한 적이 있는데 AI가 생성한 데이터로 학습한 AI는 제대로 된 답변을 하지 못하게 되고, 결국 모델이 붕괴했습니다. (참고 기사) 사실 이 연구에서는 AI가 합성 데이터를 학습한 건 아니고, 그냥 AI가 생성한 문장을 다시 학습한 거라서 경우가 다르기는 합니다만, 그만큼 인간이 만들어낸 데이터와의 차이가 있다는 걸 알아주시면 좋을 것 같습니다. (이래서 제대로 된 합성 데이터를 만드는 것이 어렵다네요.)
이 밖에도 여러 합성 데이터에는 여러 한계가 있지만, 현실적으로 AI가 발전하는 데 유용하게 쓰이고 있는 기술임에는 틀림 없습니다. 게다가 연구자들은 이런 합성 데이터와 실제 데이터를 하이브리드로 활용할 수 있는 방법을 찾아내겠죠. 인간의 피드백이 들어가 더욱 품질을 높이는 방향으로 발전할 수도 있고요.
결론
정리하면 "학습 데이터는 정말 부족할까?"라는 질문에 대한 답은 간단하지 않습니다. 양적인 측면에서 고품질 데이터는 한계에 가까워지고 있지만, 질적인 측면에서 저품질 데이터를 개선할 여지도 있습니다. 또한 합성 데이터는 문제 해결을 위한 좋은 방법이지만, 이것만으로 충분하지는 않을 수 있습니다. 다음 도약을 위해서는 합성 데이터의 활용과 함께, 다양한 모달리티의 통합, 효율적인 학습 알고리즘의 개발, 그리고 인간의 지도와 피드백을 효과적으로 활용하는 복합적인 접근이 필요할 것입니다.
세상에서 가장 완벽한 요리사를 꿈꾸는 사람을 상상해보세요. 수많은 음식과 레시피를 두고 수만 번의 실험을 하며 매번 더 나은 요리를 만들기 위해 고민을 합니다. 이 세상에 존재하는 모든 식재료는 거의 다 사용해보았습니다. 이제 뭘 더 해야할지 모르겠습니다. 여러분이라면 어떤 생각을 하시겠어요?
재밌게 읽으셨나요?
이 글이 도움이 되었다면,
제가 매일 만들고 있는 뉴스레터도 도움이 될 거예요!
AI 안테나
(구독하기)
글: Eddie
ⓒ 2025. Eddie All rights reserved.
'다른 이야기들' 카테고리의 다른 글
[뉴스레터] 나만의 뉴스레터 만들기, 실전 노하우 대방출 (0) | 2025.04.04 |
---|---|
아고다 환불 불가 예약 극적인 행운(?)으로 무료 취소했다!! (0) | 2025.03.27 |
기계학습에서 딥러닝까지, AI는 어떻게 똑똑해졌을까 (3) | 2024.10.15 |
진짜로 나는 지금 뭘 배우고 있는 건가 (1) | 2024.09.16 |
책편집과 EDA의 공통점 | 이상치/결측치를 잘 확인하자 (0) | 2024.08.26 |