ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [LLM] LLM 학습일지
    Upstage AI Lab 4기 2024. 12. 6. 16:51

    LLM(Large Language Model) 기반 데이터 중심 NLP 연구

    LLM 학습 데이터는 사전 학습 데이터와 미세 조정 데이터로 크게 구분된다. 사전 학습 데이터는 웹 데이터, 뉴스, 리뷰 등 다양한 소스에서 수집되며, 데이터의 품질과 다양성이 모델의 성능에 결정적인 영향을 미친다. GPT-3의 경우 Common Crawl, WebText2, Books1, Books2, Wikipedia 등에서 총 3천억 개의 토큰을 사용했으며, LLaMA는 Common Crawl, C4, Github, Wikipedia, Books, ArXiv, StackExchange 등에서 1.4조 개의 토큰을 활용했다.

    데이터 전처리는 LLM의 성능 향상을 위한 핵심 요소이다. GPT-3와 LLaMA 등 주요 모델들은 데이터 필터링, 중복 제거, 다양성 확보라는 세 가지 전처리 단계를 거친다. 특히 LLaMA는 FastText 기반 언어 식별, N-gram 언어 모델 기반 저품질 필터링, 위키피디아 참조 페이지 분류 등 더욱 정교한 필터링 기법을 적용했다. RefinedWeb 데이터셋의 사례에서 볼 수 있듯이, 웹 데이터만으로도 적절한 필터링과 중복 제거를 통해 강력한 모델을 구축할 수 있다.

    LLM 기반 데이터 라벨링은 모델의 높은 언어 이해 능력을 활용하여 새로운 데이터를 생성하거나 기존 데이터를 증강하는 연구 분야이다. Vicuna는 7만 건의 ChatGPT 대화를 활용해 LLaMA를 미세조정하여 뛰어난 성능 향상을 달성했다. GPT-4를 활용한 instruction 데이터셋 생성 연구에서는 Alpaca 데이터셋을 시드로 활용하여 제로샷 성능을 크게 개선했다. 또한 humans-in-the-loop 방식으로 LLM이 생성한 데이터에 대한 인간의 검증을 더해 데이터의 다양성과 품질을 동시에 높이는 연구도 진행되고 있다.

    이러한 연구들은 LLM의 성능이 데이터의 양보다 품질과 다양성에 더 큰 영향을 받는다는 점을 보여준다. LIMA(Less Is More for Alignment) 연구에서는 단 1,000개의 고품질 instruction 데이터로도 더 많은 데이터로 학습한 모델보다 나은 성능을 달성할 수 있음을 입증했다. 이는 데이터 중심 접근법에서 데이터의 규모보다 품질 관리와 전처리의 중요성을 강조하는 결과이다.

     

    LLM 기반 Model-Centric NLP 연구

    LLM Tuning은 모델의 성능을 향상시키기 위한 핵심 접근법으로, Fine-Tuning과 Parameter Efficient Tuning으로 구분된다. Fine-Tuning은 LLM 이전 세대부터 사용되던 방법으로 사전학습된 모델을 특정 작업에 특화하여 학습하는 과정을 의미한다. 최근에는 방대한 파라미터를 가진 LLM의 특성상 많은 계산 자원이 요구되므로, Parameter Efficient Tuning이 주목받고 있다.

    Parameter Efficient Tuning의 대표적인 방법으로는 LoRA와 QLoRA가 있다. LoRA는 Gradient values를 low-rank로 매핑하는 행렬을 학습하는 방식으로, GPT-3 175B의 경우 메모리 사용량을 1.2TB에서 350GB로 대폭 감소시켰다. QLoRA는 4-bit NormalFloat 양자화와 Double Quantization을 통해 더욱 효율적인 메모리 사용을 가능하게 했다. 또한 Prefix-Tuning은 Transformer layer의 입력 앞에 trainable parameters를 추가하여 0.1%의 파라미터만으로도 full fine-tuning과 비슷한 성능을 달성했다.

    도메인 특화는 LLM을 특정 분야에 최적화하는 연구 분야로, Knowledge Augmentation과 Domain Tuning으로 나눌 수 있다. Knowledge Augmentation은 외부 소스에서 관련 정보를 검색하여 모델의 도메인 지식을 향상시키는 방식이다. RAG(Retrieval Augmented Generation)는 Language Model과 Retrieval Model을 결합한 End-to-End 프레임워크로, 검색된 정보를 In-Context Learning을 통해 활용한다.

    Domain Tuning은 일반 텍스트로 사전학습된 LLM을 도메인 특화 데이터로 추가 학습하는 방식이다. 의료 분야의 Med-PaLM 2는 PaLM 2를 기반으로 다양한 의료 QA 데이터셋을 활용해 USMLE 시험에서 전문의 수준의 성능을 달성했다. 금융 분야의 FinGPT는 실시간 금융 데이터를 자동으로 수집하여 QLoRA로 학습하는 방법을 제시했다. 이러한 도메인 특화 연구들은 LLM이 특정 분야에서 전문가 수준의 성능을 달성할 수 있음을 보여준다.

    이러한 연구들은 LLM의 활용 가능성을 크게 확장하고 있다. 효율적인 튜닝 방법의 발전으로 적은 자원으로도 강력한 성능을 달성할 수 있게 되었으며, 도메인 특화 연구를 통해 각 분야의 전문성을 갖춘 모델 개발이 가능해졌다. 앞으로도 더욱 효율적이고 강력한 LLM 개발을 위한 연구가 지속될 것으로 전망된다.

     

Designed by Tistory.