본문 바로가기

패스트캠퍼스

패스트캠퍼스 Upstage AI Lab 부트캠프 4기 | 과정 종료 회고 2025. 02. 147개월의 부트캠프 과정이 종료됐습니다. 벌써 회고를 쓸 시간이 됐다니, 늘 느끼는 거지만 정말 시간 빠르네요. 부트캠프 과정을 전반적으로 되돌아보면서, 뭘 배웠고 어떤 것들을 해왔는지 굵직하게 한번 정리해보겠습니다. 저는 "패스트캠퍼스 Upstage AI Lab 부트캠프 4기" 과정으로 7월 16일에 개강하고, 2월 14일 수료식으로 마무리를 했습니다. 개강 후부터는 줌 수업부터 온라인 강의로 쭉쭉- 달리기 시작했는데요. 전반적인 과정 내용을 기억나는대로 정리해보았습니다. 스타트!이제 안녕~~ 매일 들어갔던 슬랙이랑 출첵 시간마다 울렸던 알람도 모두 끝이다! 알람을 삭제하니 조금씩 실감이 난다.  Computer Science일주일 정도를 '컴퓨터 공학 개론'이라고 해서 줌 강의와 .. 더보기
기업연계 프로젝트가 끝났다, 이제 부트캠프도 곧 끝! 2025년 2월 7일 금요일, 부트캠프의 마지막 과정이였던 기업연계 프로젝트가 끝이 났습니다! 부트캠프도 이제 일주일 뒤면 끝이 나고요. 참 사람이 이상한게요, 막상 부트캠프를 하고 프로젝트를 열심히 하고 있을 때에는 빨리 끝났으면 좋겠고, 이거 언제 끝나나~ 끝이 보이지 않는 것만 같은데 시간이 훌쩍 지나서 이렇게 막바지에 오면 또 이렇게 아쉽고, 더 열심히 할껄, 이것도 저것도 더 해볼껄 하는 후회가 남는 것 같아요. 그렇기 때문에 결국 우리가 할 수 있는 건 오늘 하루하루를 최선을 다해서 살아가는 것이겠죠? 프로젝트 최종 발표가 끝나고 멘토링을 해주셨던, 강사님께서 그런 말씀을 해주시더라고요. 기억에 많이 남아 있을 때 정리를 많이 해두라고. 고. 지금은 딱 '기록'을 해야하는 시기인 것 같아요. .. 더보기
패스트캠퍼스 Upstage AI Lab 부트캠프 4기 | 기업 연계 프로젝트 부트캠프 마지막 과정이 시작됐다! 마지막 과정은 '기업 연계 프로젝트'인데, 이번 우리 기수에서는 3개의 기업에서 총 4가지 주제가 주어졌다. 그중에서 수강생들이 주제를 선택하여 팀을 짜고 기업과 피드백을 거치면서 프로젝트를 완성하는 방식이다.기간은 1월 13일부터 2월 7일까지. 1월 13일에는 기업 담당자들이 직접 프로젝트를 소개하고 어떤 것을 원하는지 설명해주는 오티가 진행됐다. 그리고 일주일 정도 기업과 미팅도 하면서 서로 목표와 목적을 맞춰나가는 싱크업 기간을 가지고 17일에 이를 바탕으로 기획안을 발표했다. 총 4가지 주제가 있었는데, 굵직하게 나눠보자면 1. 보안 도메인에서 올라오는 사용자들의 리포트를 AI모델로 최대한 개선하기2. 한글로 된 리포트를 영어로 바꾸기3. 전문가들이 작성한 리포.. 더보기
패스트캠퍼스 Upstage AI Lab 부트캠프 4기, IR 경진대회(feat. RAG) 2024년 막바지를 향해 달리는 중,짧고 굵게 후다다닥 지나갔지만 동시에 배운 것도 정말 많은 IR 경진대회에 대해 리뷰한다. 기간은 단 4일! 월요일에 서버 만들고 데이터 다운로드해서 베이스라인 땅! 시작하고,수요일에 멘토링을 한 번 받은 뒤에, 목요일까지 결과를 제출하고, 금요일에 발표 및 랩업 세미나로 정리하는 타이트하고 빡센 일정이였다.  - "질문"이 들어오면, 질문과 연관된 "적절한 문서"를 찾고, 그 문서를 참조해서 적절한 답변을 생성한다.- 대회에서는 답변을 확인하지 않고, 답변을 위해 참조한 문서 3개(top k)를 뽑아서, 이 3개 문서가 잘 추출됐는지로 평가한다. - 임베딩 생성 모델, 검색 엔진, LLM을 활용할 수 있다. - 학습 데이터로 주어지는 문서와 쿼리 모두 jsonl 형태.. 더보기
학습일지 | Data Centric AI Data Centric AI:데이터를 중심으로 결과/성능을 향상시키는 접근 방식몇 번의 프로젝트 때마다 항상 강조됐던 것인데 이렇게 따로 모아서 강의를 들어보는 것도 좋았다.데이터 수집부터 전처리, 라벨링, 스플릿하는 법, 데이터 분석 등 데이터 기반으로 살펴봐야 할 것들을 전부 다 다룬다.  1. 데이터 수집물론 직접 데이터셋을 구축하는 법도 있지만(직접 한땀한땀 만든다거나 크롤링을 한다거나), 오픈소스로 공개된 데이터셋을 가져오는 방법, 그리고 기존에 가지고 있는 데이터를 어그멘테이션으로 늘리는 방법도 있다. 예전에는 라벨러들을 고용해서 데이터 라벨링을 하는 알바도 있었는데. 그것도 하나의 데이터셋 구축이라고 할 수 있다. 2. 데이터 전처리 이건 너무 다양해서 케바케3. 데이터 라벨링라벨링 규칙이나.. 더보기
[LLM] LLM 학습일지 LLM(Large Language Model) 기반 데이터 중심 NLP 연구LLM 학습 데이터는 사전 학습 데이터와 미세 조정 데이터로 크게 구분된다. 사전 학습 데이터는 웹 데이터, 뉴스, 리뷰 등 다양한 소스에서 수집되며, 데이터의 품질과 다양성이 모델의 성능에 결정적인 영향을 미친다. GPT-3의 경우 Common Crawl, WebText2, Books1, Books2, Wikipedia 등에서 총 3천억 개의 토큰을 사용했으며, LLaMA는 Common Crawl, C4, Github, Wikipedia, Books, ArXiv, StackExchange 등에서 1.4조 개의 토큰을 활용했다.데이터 전처리는 LLM의 성능 향상을 위한 핵심 요소이다. GPT-3와 LLaMA 등 주요 모델들은 데이.. 더보기
패스트캠퍼스 Upstage AI Lab 부트캠프 4기, 과정 중간 회고 2024년 7월 16일, 부트캠프가 시작된 이후로 절반 좀 넘게 지난 것 같다. 패스트캠퍼스 업스테이지 AI Lab 부트캠프를 선택했던 가장 큰 이유였던 '프로젝트'를 정신없이 하다보니, (그리고 지금도 하고 있고..) 각잡고 회고할 기회가 많지 않았던 것 같다. 이번 기회에 과정 중간 회고를 딥하게 해보았다. 1. 프로젝트에 관하여7월부터 11월 말을 향하고 있는 지금까지 프로젝트를 벌써 5개(!)를 했다. 랭체인 프로젝트: 올림픽 경기 규칙 RAG머신러닝 경진대회: 아파트 실거래가 예측MLOps 프로젝트: 사용자가 디스플레이에 숫자를 그리면, 숫자를 인식해서 출력하고, 데이터베이스로 관리되면서 모델이 계속해서 업데이트되도록 하는 파이프라인 구성CV 경진대회: 17가지 문서 또는 차량 관련 이미지를 주.. 더보기
패스트캠퍼스 Upstage AI Lab 부트캠프 4기, "Upstage 경진대회 CV편" 새로운 공부를 하니 시간이 정말 천천히 가는 것 같으면서도 또 순삭이네요. 첫 경진대회인 아파트 실거래가 예측하는 머신러닝 경진대회가 지나고, 바로 MLOps를 지나, CV 경진대회까지 쉴틈없이 달리는 중인데요. 이번 포스팅에서는 지난 주에 마무리했던 CV 경진대회에 대한 이야기를 해볼까 합니다.  이번 대회는 CV, Computer vision domain에서 중요한 이미지를 분류하는 태스크가 주제였습니다. CV의 아주 클래식한 예시처럼, 강아지 사진을 넣고 모델이 강아지인지 고양이인지 맞추게 하는 것처럼 말이지요. 대회에서 주어진 이미지들은 총 17가지 클래스로 구분되어 있었는데요. 1570장의 학습 이미지가 주어지고, 각 이미지는 클래스1(자동차 번호판), 클래스2(이력서), 클래스3(진료확인서) .. 더보기