패스트캠퍼스 Upstage AI Lab 부트캠프 4기, IR 경진대회(feat. RAG)
2024년 막바지를 향해 달리는 중,짧고 굵게 후다다닥 지나갔지만 동시에 배운 것도 정말 많은 IR 경진대회에 대해 리뷰한다. 기간은 단 4일! 월요일에 서버 만들고 데이터 다운로드해서 베이스라인 땅! 시작하고,수요일에 멘토링을 한 번 받은 뒤에, 목요일까지 결과를 제출하고, 금요일에 발표 및 랩업 세미나로 정리하는 타이트하고 빡센 일정이였다. - "질문"이 들어오면, 질문과 연관된 "적절한 문서"를 찾고, 그 문서를 참조해서 적절한 답변을 생성한다.- 대회에서는 답변을 확인하지 않고, 답변을 위해 참조한 문서 3개(top k)를 뽑아서, 이 3개 문서가 잘 추출됐는지로 평가한다. - 임베딩 생성 모델, 검색 엔진, LLM을 활용할 수 있다. - 학습 데이터로 주어지는 문서와 쿼리 모두 jsonl 형태..
더보기
[IR] 벡터 유사도를 계산하는 다양한 방법들
내가 사용했던 엘라스틱서치의 KNN 검색 과정:주어진 쿼리 벡터와 모든 문서 벡터 간의 L2 거리를 계산num_candidates 개수만큼의 후보를 먼저 선정 (코드에서는 100개)이는 성능과 정확도의 트레이드오프를 위한 것후보군이 많을수록 정확도는 높아지지만 검색 속도는 느려짐후보군 중에서 거리가 가장 가까운 k개(코드에서는 size 파라미터)를 최종 선택거리가 가까운 순서대로 정렬하여 결과 반환예를 들어, 768차원의 임베딩 벡터가 있다면:쿼리: [0.1, 0.2, ..., 0.7]문서1: [0.2, 0.3, ..., 0.6]문서2: [0.8, 0.7, ..., 0.1] 이런 식으로 각 차원의 차이를 계산하여 전체 거리를 구합니다. mappings = { "properties": { ..
더보기
[LLM] LLM 학습일지
LLM(Large Language Model) 기반 데이터 중심 NLP 연구LLM 학습 데이터는 사전 학습 데이터와 미세 조정 데이터로 크게 구분된다. 사전 학습 데이터는 웹 데이터, 뉴스, 리뷰 등 다양한 소스에서 수집되며, 데이터의 품질과 다양성이 모델의 성능에 결정적인 영향을 미친다. GPT-3의 경우 Common Crawl, WebText2, Books1, Books2, Wikipedia 등에서 총 3천억 개의 토큰을 사용했으며, LLaMA는 Common Crawl, C4, Github, Wikipedia, Books, ArXiv, StackExchange 등에서 1.4조 개의 토큰을 활용했다.데이터 전처리는 LLM의 성능 향상을 위한 핵심 요소이다. GPT-3와 LLaMA 등 주요 모델들은 데이..
더보기