AI 모델의 성능을 극대화하는 스케일링 기법 총정리

지난 편에 이어서 작성합니다. 이 글은 2025년 4월 23일 오후 5시부터 6시까지 진행된 업스테이지 프라이빗 세미나의 내용을 기반으로 정리했습니다.
지난 편: 실전에서 바로 써먹는 'Post-training' 테크닉, 튜닝 계보 한방 정리

스케일링이란?

스케일링은 모델 학습을 완료한 후 실제 인퍼런스 단계에서 결과(아웃풋)를 최적화하는 기법들을 의미합니다. 이 분야는 크게 Thought-based reasoning, Sampling-based inference, Search-based inference 세 가지 접근법으로 나눌 수 있습니다.

Thought-based Reasoning (사고 기반 추론)

Thought-based reasoning은 구조화된 단계별(스텝 바이 스텝) 추론을 모델이 할 수 있도록 만드는 접근법입니다. 이 방식의 핵심 장점은 다단계 추론(멀티 스텝 리즈닝), 논리적 추론(로지컬 인퍼런스), 계획 수립(플래닝) 등을 효과적으로 수행할 수 있게 한다는 점입니다.

이 분야의 대표적인 기법으로는 CoT(Chain of Thought)가 있습니다. 문제를 받았을 때 곧바로 답을 하는 것이 아니라, "Let's think step by step"과 같은 문구를 추가하고 단계적으로 답을 도출하게 하는 방식입니다. 이 방식은 특히 수학 문제, 논리적 추론, 다단계 사고가 필요한 계획 수립 등 심볼릭한 태스크에서 효과적입니다.

CoT 이후 다양한 발전 방향이 있었습니다:

Self-consistency: 그리디 디코드 방식(템퍼러처=0으로 설정해 항상 같은 답변만 생성)과 달리, 다양한 답변을 생성한 후 가장 일관된 답변을 선택하는 방식입니다. 정답 가짓수를 늘린 다음, 그 중에서 가장 올바르다고 판단되는 것을 최종 답변으로 선택합니다.
Tree of Thoughts: CoT가 선형적인 사고 과정을 가진다면, Tree of Thoughts는 사고를 트리 형태로 확장합니다. 마치 나무가지가 뻗어나가듯 여러 사고 경로를 탐색하는 방식으로, 더 많은 추론 경로를 탐색할 수 있습니다.
Graph of Thoughts: Tree of Thoughts의 단점(한번 선택한 경로에서 되돌아갈 수 없음)을 보완하기 위해 나온 방식입니다. 백트래킹과 리파인먼트가 포함되어 있어, 잘못된 방향으로 갔을 때 이전 단계로 돌아가 다시 탐색할 수 있습니다.

이후에는 여러 에이전트를 활용하는 멀티 에이전트 방식이나, 추론을 여러 갈래로 펼치는 멀티 리즈닝 과정 등이 연구되고 있습니다.

Thought-based Reasoning의 장단점

장점:

다단계(멀티 스텝) 추론이 가능합니다.
여러 방면으로 생각할 수 있어 해석력이 높아집니다.
생성 과정이 모두 보이기 때문에 해석 가능성(인터프리터빌리티)이 향상됩니다.

단점:

프롬프트 길이가 증가합니다. 추론 과정을 위한 지시문("Let's think step by step" 등)이 컨텍스트를 차지하기 때문입니다.
환각(할루시네이션) 이슈가 발생할 수 있습니다. 자기회귀적(Auto-regressive) 디코딩 방식으로 인해 이전에 생성된 단어가 잘못되면 이후 단어들도 잘못될 확률이 높아집니다.

Sampling-based Inference (샘플링 기반 추론)

샘플링 기반 추론은 모델이 더 효율적으로 다양한 답변을 생성하게 하는 접근법입니다. "이 문제를 한 번 풀면 틀릴 수 있지만, 10번 풀면 맞출 수 있다"는 개념으로, 여러 번 시도하여 효율성과 품질을 높이는 방식입니다.

샘플링 기반 접근법의 핵심은 여러 답변을 생성하여 품질과 신뢰성을 높이는 것입니다. 이 분야의 주요 기법들은 다음과 같습니다:

Top-k Sampling: 일정 횟수(k)까지 생성한 다음, 확률 기준으로 임계값(threshold)을 설정하여 생성하는 방식입니다.
Temperature Sampling: 0.9, 0.7 등 다양한 확률로 생성하는 방식입니다.
Nucleus Sampling(Top-P): Top-k와 함께 사용되며, 특정 확률에 도달할 때까지 샘플링하는 방식입니다.
Self-consistency: 앞서 언급한 컨피던스 기반 방법으로, 여러 답변 중 일관성 있는 것을 선택합니다.
Rejection Sampling: 생성한 내용 중 모델이 스스로 자신 없는 예시들을 제거하고, 자신 있는 샘플만 남기는 방식입니다.

Sampling-based Inference의 장단점

장점:

정답에 대한 신뢰도(컨피던스)와 신뢰성(릴라이어빌리티)이 향상됩니다. 여러 답변을 생성하고 그 중에서 선택하기 때문에 정답 확률이 높아집니다.
고품질 결과를 보장할 수 있습니다. 하나의 답변만 사용할 때보다 여러 답변 중 선택하면 품질이 높아질 가능성이 높습니다.

단점:

과도한 자신감(오버 컨피던스) 이슈가 발생할 수 있습니다. 모델이 문제를 잘 모르지만 자신감을 가지고 잘못된 답을 선택할 수 있습니다.
계산 비용(컴퓨테이션 코스트)이 증가합니다. 한 번이 아닌 여러 번 생성하기 때문에 비용이 더 많이 듭니다.

Search-based Inference (검색 기반 추론)

검색 기반 추론은 출력 컨텍스트에서 최적의 경로를 찾는 접근법입니다. 사실 이 세 가지 접근법은 명확하게 구분되기보다는 서로 얽혀 있습니다. 검색 기반이 기본이 되고, 그 위에 사고 기반과 샘플링 기반이 발전한다고 볼 수 있습니다.

검색 기반의 대표적인 기법은 몬테카를로 트리 서치(Monte Carlo Tree Search)입니다. 이 과정은 세 단계로 구성됩니다:

확장(Expansion): 추론 경로를 최대한 확장합니다. 예를 들어 수학 문제를 70% 풀었다면, 나머지 30%를 작성하는 과정입니다.
시뮬레이션(Simulation): 이어서 정답이 맞는지 확인하는 과정입니다.
역전파(Back Propagation): 정답이 안 나오면 돌아가서 다시 시도하는 과정입니다.

이 외에도 다양한 검색 기법이 있습니다:

빔 서치(Beam Search): 여러 후보 중 특정 수만 지정해 계속 탐색해 나가는 방식입니다.
베스트 오브 N(Best of N): N개의 샘플링 결과 중 최고의 하나만 선택하는 방식입니다.
Look-ahead Search: 다음에 올 내용을 미리 시뮬레이션해보고 결정하는 방식입니다.

Search-based Inference의 장단점

장점:

다양한 경로를 탐색할 수 있습니다. 더 멀리까지 탐구해 나갈 수 있으며, 탐색 깊이에 따라 최적 또는 준최적 결과를 얻을 수 있습니다.
장기적 의사결정(롱텀 디시전 메이킹)을 처리할 수 있어 계획 수립 태스크에 적합합니다.

단점:

계산 비용이 많이 듭니다. 시뮬레이션과 백트래킹을 반복하기 때문에 처리 속도가 느려질 수 있습니다.
탐색 공간이 넓어지면 처리 속도가 현저히 느려질 수 있습니다.

실전 적용 가이드

인퍼런스 시간 스케일링의 장점을 활용하려면 여러 접근법을 동시에 이해하고, 상황에 맞게 적절히 조합하여 적용하는 것이 중요합니다. 실제로 대부분의 문제는 튜닝 방식으로 해결되지만, 인퍼런스 단계에서의 스케일링 기법을 적절히 활용하면 모델의 성능을 한층 더 끌어올릴 수 있습니다.

복잡하거나 풀기 어려운 문제일수록 이러한 스케일링 기법의 조합이 더욱 중요해지며, 더 심화된 접근이 필요한 경우에는 강화학습 분야까지 검토해볼 필요가 있습니다.

세미나를 정리하며 마치는 말

"Post training 테크닉 트렌드를 보면 기존에 있는 한계를 최대한 해결하고 다음 연구가 나오는 경우가 많아요. 만약 본인이 느끼는 한계가 있다면, 이를 해결한 연구가 있는지 없는지 체크해 보는 것도 좋겠다 라고 말씀을 드리고 싶었고요.

무조건 최신 연구가 좋다기보다는, 기존 방법론이 가진 장점이 있기 때문에 이 장점을 취하기 위해 옛날에 쓰던 테크닉을 사용하는 경우도 많아요. 그렇기 때문에 포스트 트레이닝이 발전해온 일련의 과정과 계보를 머릿속에 집어넣고 잇다면, "이때 이런 걸 썼었지" 생각하고 돌아와 그 방법을 적용하여 해결하는 경우도 존재합니다.

마지막으로 한 가지 더 말씀드리고 싶은 것은 대부분의 문제가 1차적으로 해결하기에는 포스트 트레인 단계에 있는 튜닝이 많이 활용이 됩니다. 사실 제가 생각하기에는 한 80%의 문제는 튜닝으로 어느 정도 풀린다 라고 인지를 하고 있습니다.또 세상의 트렌드에 따라서 튜닝, 스케일링, 강화학습 그리고 얼라이먼 튜닝 이렇게 각기 하나씩 부각되는 것이 있는데, 요즘 두각을 좀 드러내는 방향이 강화학습 쪽인 것 같습니다."

재밌게 읽으셨나요?
이 글이 흥미로웠다면 제가 직접 쓰고 만드는
AI 안테나 뉴스레터도도 재밌을 거예요!
매주 수요일마다 주요 AI 소식과 인사이트를
메일함에 넣어드립니다.
AI 안테나에서 또 만나요.

https://eddienewsletter.stibee.com/

AI안테나

인공지능과 함께 만드는 AI 뉴스

eddienewsletter.stibee.com

'공부방' 카테고리의 다른 글

프롬프트 엔지니어링 7편 \| 자동 프롬프트 엔지니어링, 코딩, 멀티모달 (1)	2025.05.02
프롬프트 엔지니어링 6편 \| Tree of Thoughts(ToT), reason&act(ReAct) (2)	2025.04.30
프롬프트 엔지니어링 5편 \| Chain of Thought(CoT), Self-consistency (0)	2025.04.28
실전에서 바로 써먹는 'Post-training' 테크닉, 튜닝 계보 한방 정리 (0)	2025.04.28
맥북 도커 창 사라졌을 때 도커 강제 재시작, 도커 설정 초기화 (1)	2025.04.26

AI로 할 수 있는 모든 일

AI 모델의 성능을 극대화하는 스케일링 기법 총정리

스케일링이란?