실전에서 바로 써먹는 'Post-training' 테크닉, 튜닝 계보 한방 정리
업스테이지 프라이빗 세미나 3회차에서는 ‘LLM Post Training Techniques’를 주제로 업스테이지 정민별 박사님이 강연을 해주셨습니다. 내용이 매우 매우 방대하여 한번에 정리하기 너무 어려운 것 같아, 나눠서 업로드합니다. 이 글은 2025년 4월 23일 오후 5시부터 6시까지 진행된 업스테이지 프라이빗 세미나의 내용을 기반으로 정리했습니다.
Post-training이란?
Post-training은 이미 pre-train 되어 있는 모델을 가져와 특정 태스크나 도메인에 맞춰 추가적으로 학습을 시키는 과정입니다. 모델을 우리가, 원하는 작업이나 분야에 적응시키고 적용하기 위한 필수적인 단계라고 볼 수 있습니다.
Post-training의 주요 분야
포스트 트레이닝에는 크게 튜닝, 강화학습, 스케일링 세 가지 분야가 존재합니다. 이번 편에서는 튜닝 분야를 중점적으로 살펴보겠습니다.(다음 편에서 스케일링 분야를 다룹니다. 강화학습은 세미나 시간 관계상 다루지 않았습니다.) 튜닝은 기존 모델을 우리가 원하는 태스크나 도메인에 효과적으로 적용시키기 위해 사용하는 기법입니다.
튜닝의 네 가지 주요 계보
튜닝 기법은 크게 네 가지 계보로 나눌 수 있습니다:
- 풀 파인 튜닝(Full Fine-tuning)
- 파라미터 이피션트 파인 튜닝(Parameter-efficient Fine-tuning)
- 널리지 디스틸레이션(Knowledge Distillation)
- 인 컨텍스트 러닝(In-context Learning)
각각의 방식이 갖는 특징과 장단점을 자세히 살펴보겠습니다.
풀 파인 튜닝(Full Fine-tuning)
풀 파인 튜닝은 모델의 모든 파라미터를 업데이트하며 특정 태스크에 특화된 데이터로 학습시키는 방식입니다. 예를 들어, 번역을 잘하게 만들고 싶다면 번역 데이터를, 요약 성능을 높이고 싶다면 요약 데이터를 넣어 학습시킵니다.
트랜스포머 아키텍처에 대한 기본 지식이 있으면 계보를 이해하기 쉽습니다. 트랜스포머는 이후 등장하는 프리트레인 모델들의 기본 구조로, 이 구조를 여러 겹 쌓아서 만든 최초의 모델이 BERT입니다. BERT를 프리트레이닝으로 여러 레이어를 쌓아 학습시킨 다음, 여러 태스크에 맞춰 추가 학습을 시키며 사용했습니다.
초기 BERT 모델은 학습 자체가 무거웠기 때문에, 이후 RoBERTa, XLNet, ALBERT 같은 효율적인 모델들이 등장했습니다. 그 다음 계보에서는 T5, GPT, ELECTRA 계열이 주목받았으며, 이 모델들은 앞에 수행할 작업을 지시하는 방식으로 동작했습니다. 이후 PaLM, LLaMA 계열이 등장했고, 이 계보에서 가장 주목받은 모델이 ChatGPT입니다.
풀 파인 튜닝의 장단점
장점:
- 유연성이 높아 새로운 도메인이나 태스크에 적응을 잘 합니다.
- 도메인 특화된 적응이 효과적으로 이루어집니다.
단점:
- 계산 비용이 매우 높고, 시간과 자원이 많이 소모됩니다.
- 파인튜닝 과정에서 프리트레이닝 때 학습한 지식을 잃는 '카타스트로픽 포게팅(Catastrophic Forgetting)' 현상이 발생할 수 있습니다.
파라미터 이피션트 파인 튜닝(Parameter-efficient Fine-tuning)
GPU 리소스가 부족하거나 비용이 제한적일 때 사용하는 방식으로, 모델 내의 일부 파라미터만 업데이트하는 기법입니다. 적은 차원으로 모델의 작은 부분만 학습시키는 방식입니다.
여러 접근법이 있는데, 하나는 트랜스포머 아키텍처 대신 우회 학습을 위한 어댑터 레이어를 추가하고, 기존 아키텍처는 프리즈(동결) 상태로 두는 방식입니다. 또 다른 접근법으로는 프리픽스 튜닝(Prefix Tuning)이 있습니다. 이는 전체 트랜스포머 레이어에서 앞부분만 선택해 그 프리픽스 부분만 학습시키는 방식입니다.
다음으로 P-튜닝 V2 같은 연구도 있습니다. 이는 레이어별로 다양하게 프론트를 나눠서 학습하는 방식입니다. 그 이후에는 현재 가장 널리 알려진 LoRA(Low-Rank Adaptation) 방식이 등장했습니다.
LoRA는 기존 옵티마이저 상태를 최대한 양자화해서 작게 만들고, 기존 가중치를 잘게 쪼개 우회할 수 있을 정도로 작게 만들어 그 부분만 학습시키는 방식입니다. 예를 들어, 10x10 행렬을 학습할 때 더 작은 차원인 10x4와 4x10 두 개의 행렬을 두고 4x4만 학습시켜 10x10을 최대한 근사하는 것입니다. 이후에는 LoRA를 더 양자화한 QLoRA 방식도 등장했습니다.
파라미터 이피션트 파인 튜닝의 장단점
장점:
- 계산 비용이 매우 적어 제한된 자원으로도 학습이 가능합니다.
- 메모리 효율적으로 훈련할 수 있습니다.
- 적은 파라미터만 업데이트되므로 추론 속도가 빠르고 파인 튜닝 과정이 빠르게 완료됩니다.
단점:
- 풀 파인 튜닝 대비 태스크 적응성이 떨어집니다.
- 전체 모델을 학습시키는 것보다 성능이 다소 낮을 수 있습니다.
- 학습 속도와 성능 사이의 트레이드오프가 존재합니다.
인 컨텍스트 러닝(In-context Learning)
인 컨텍스트 러닝은 모델을 학습시키지 않는 접근법입니다. 대신, 특징적인 입력 프롬프트를 컨텍스트로 제공하고, 관련 태스크를 설명하는 예시를 몇 개 보여주는 방식으로 작동합니다.
예를 들어, 리뷰가 긍정적인지 부정적인지 판단하는 태스크에서는 몇 가지 예시를 먼저 보여준 다음 실제 입력을 판단하게 합니다. 새로 들어온 정보와 예시 간의 유사성을 파악해 결과를 도출하는 방식입니다.
인 컨텍스트 러닝은 풀 파인 튜닝에서 T5, GPT 계열에서 새롭게 발전한 분야입니다. 이후 MetaICL이 등장했는데, 이는 태스크에 관련된 다양한 정보를 제공하는 방식입니다. 그 다음으로는 CoT(Chain of Thought) 계열이 나왔으며, 최근까지도 이런 CoT 연구들이 계속되고 있습니다. 이후에는 DeepSeek와 같은 리즈닝 계열 모델들이 나오면서 CoT를 더 길게 생성하는 롱 CoT 계열의 연구도 진행되고 있습니다.
인 컨텍스트 러닝의 장단점
장점:
- 모델을 직접 학습시키지 않기 때문에 파인 튜닝 과정이 필요하지 않습니다.
- 관련 태스크의 예시 몇 개만 제공하거나, 좀 더 사고 과정을 유도하는 프롬프트를 제공하는 것만으로 작동합니다.
단점:
- 제한된 컨텍스트 길이로 인해 예시가 많아질수록 실제 태스크를 위한 공간이 줄어듭니다.
- 추론 시 계산 비용이 발생할 수 있고, 결과가 다소 불안정할 수 있습니다.
- 예를 들어, 음식 리뷰 예시로 학습시킨 후 영화 리뷰를 판단하게 하면 정확도가 떨어질 수 있습니다.
인 컨텍스트 러닝과 파인 튜닝의 가장 큰 차이점은 파라미터 업데이트 여부와 학습 과정의 필요성입니다. 또한 추론 시간에는 인 컨텍스트 러닝이 더 많은 자원을 소모합니다.
널리지 디스틸레이션(Knowledge Distillation)
널리지 디스틸레이션은 큰 모델의 지식을 작은 모델로 전이시키는 방법입니다. 큰 모델을 선생님(Teacher)으로, 작은 모델을 학생(Student)으로 지정해 선생님 모델의 지식을 학생 모델이 습득하게 만드는 방식입니다.
트랜스포머나 BERT 계열의 모델들도 이런 지식 증류 방식의 한 축으로 작용했습니다. 이 분야의 연구들은 사이사이 여러 갈래로 뻗어나가며 발전했습니다. 가장 많이 사용된 모델로는 TinyBERT와 DistilBERT가 있습니다.
또한 "셀프 디스틸레이션"이라는 개념도 등장했는데, 이는 이전에 학습한 자기 자신의 모델이 다음 버전의 모델에게 선생님 역할을 하는 방식입니다. "멀티 티처 KD(Multi-teacher Knowledge Distillation)"처럼 여러 선생님 모델을 두는 경우도 있습니다.
널리지 디스틸레이션의 장단점
장점:
- 태스크 특화된 적응성이 상대적으로 높습니다.
- 작은 모델을 사용하므로 배포 비용이 적게 듭니다.
단점:
- 해석 가능성이 떨어집니다. 선생님 모델이 잘 가르쳤어도 학생 모델이 의도대로 이해했는지 확인하기 어렵습니다.
- 작은 크기의 모델을 사용하기 때문에 성능과 효율성 사이에 트레이드오프가 있습니다.
실전에서의 선택 가이드
현업에서는 각 연구들이 주장하는 장점만으로는 바로 적용하기 어려운 경우가 많습니다. 하지만 위에서 설명한 네 가지 주요 튜닝 기법은 실제 현업에서도 바로 활용 가능한 내용들입니다.
실제로 대부분의 문제들(약 70-80%)은 초기에 이러한 튜닝 기법으로 해결하려는 시도를 합니다. 대개는 튜닝 방식이나 이후 추론 단계에서의 스케일링으로 문제가 해결됩니다. 정말 풀기 어려운 문제이거나 더 심화된 접근이 필요한 경우에는 강화학습 분야까지 검토하는 것이 좋습니다.
재밌게 읽으셨나요?
이 글이 흥미로웠다면 제가 직접 쓰고 만드는
AI 안테나 뉴스레터도도 재밌을 거예요!
매주 수요일마다 주요 AI 소식과 인사이트를
메일함에 넣어드립니다.
AI 안테나에서 또 만나요.
https://eddienewsletter.stibee.com/
AI안테나
인공지능과 함께 만드는 AI 뉴스
eddienewsletter.stibee.com