패스트캠퍼스 Upstage AI Lab 부트캠프 4기, IR 경진대회(feat. RAG)
2024년 막바지를 향해 달리는 중,짧고 굵게 후다다닥 지나갔지만 동시에 배운 것도 정말 많은 IR 경진대회에 대해 리뷰한다. 기간은 단 4일! 월요일에 서버 만들고 데이터 다운로드해서 베이스라인 땅! 시작하고,수요일에 멘토링을 한 번 받은 뒤에, 목요일까지 결과를 제출하고, 금요일에 발표 및 랩업 세미나로 정리하는 타이트하고 빡센 일정이였다. - "질문"이 들어오면, 질문과 연관된 "적절한 문서"를 찾고, 그 문서를 참조해서 적절한 답변을 생성한다.- 대회에서는 답변을 확인하지 않고, 답변을 위해 참조한 문서 3개(top k)를 뽑아서, 이 3개 문서가 잘 추출됐는지로 평가한다. - 임베딩 생성 모델, 검색 엔진, LLM을 활용할 수 있다. - 학습 데이터로 주어지는 문서와 쿼리 모두 jsonl 형태..
더보기
[LLM] LLM 학습일지
LLM(Large Language Model) 기반 데이터 중심 NLP 연구LLM 학습 데이터는 사전 학습 데이터와 미세 조정 데이터로 크게 구분된다. 사전 학습 데이터는 웹 데이터, 뉴스, 리뷰 등 다양한 소스에서 수집되며, 데이터의 품질과 다양성이 모델의 성능에 결정적인 영향을 미친다. GPT-3의 경우 Common Crawl, WebText2, Books1, Books2, Wikipedia 등에서 총 3천억 개의 토큰을 사용했으며, LLaMA는 Common Crawl, C4, Github, Wikipedia, Books, ArXiv, StackExchange 등에서 1.4조 개의 토큰을 활용했다.데이터 전처리는 LLM의 성능 향상을 위한 핵심 요소이다. GPT-3와 LLaMA 등 주요 모델들은 데이..
더보기