본문 바로가기

공부방/Upstage AI Lab 4기

머신러닝 경진대회 1 | 대회 파악 & 환경 세팅 드디어 부트캠프의 꽃(?) 경진대회가 시작된다!업스테이지 4기 부트캠프에서는 총 4번의 경진대회가 있는데 그중 이번이 첫번째 대회이다. ML Advanced / Regression 대회  (이번에 진행하는 것!)CV Advanced / Image Classification 대회NLP Advanced /  Natural Language Inference 대회OCR & RecSys & IR & AD / 택 1오늘 오전 10시부터 11시까지는 대회 소개와 대회를 시작하기 전에 세팅해야 하는 것들에 대해서 특강이 있었다. 대회 소개House Price Prediction서울의 아파트 실거래가 데이터를 기반으로 아파트 실거래가를 예측하는 대회정형, 회귀, 금융, RMSE대회 목표정형 데이터 중 친숙한 부동산 주제.. 더보기
패스트캠퍼스 Upstage AI Lab 부트캠프 4기, “특강: 캐글(kaggle)로 공부, 취업준비” 2024. 08. 27(화) 19:00~21:00강의 제목: 캐글 참여 전략을 통해 본 학습 및 취업 준비 노하우 데이터과학계의 상시 개최되는 올림픽이자 공부할 수 있는 커뮤니티, 캐글(Kaggle)!이번 특강의 주제는 캐글이였는데요. 업스테이지의 AI 리서치 엔지니어이신 송원호 강사님께서 특강을 진행해주셨습니다. 이번 특강 덕분에 막연히 캐글을 하면 좋다고 알고 있던 정도에서, 어떻게 공부에 활용할 수 있을지, 취업을 위한 포트폴리오로 사용할 수 있는지 등 구체적인 조언을 얻을 수 있었습니다. 부트캠프가 끝난 이후에도, 데이터 사이언티스트로서 일을 하기 위해서는 캐글에 활발히 참여하는 것이 좋겠다는 생각이 들었어요. 특강에서 얘기한 내용들을 몇 가지 정리해보았는데요. 들으면서 인상적인 부분, 그리고 마.. 더보기
머신러닝 | Supervised Learning: 회귀와 분류 Supervised Learning(지도학습)일반적인 ML의 학습 방식. 입력 데이터를 넣고 함수의 출력값이 y(사람이 지정한 정답값, 사람이 설정한 라벨)에 가까워지도록 학습하는 방식. 학습을 잘 했는지 확인하기 위해서는 모델을 평가해야 한다.그렇다면 모델이 잘 학습했는지는 어떻게 평가할까?데이터셋을 학습용 데이터셋과 평가용 데이터셋으로 나누고, 학습용 데이터로 모델을 학습시켜. 모델은 x랑 y의 관계를 학습해. 이걸 바탕으로 y값을 최대한 잘 예측할 수 있게 되는 것. 그 다음에 모델한테 평가용 데이터로 x의 값만 줘. 얘는 학습에 적용된 적이 없으니까 모델 입장에서는 새로운 데이터야. x를 줬으니 y값을 맞춰봐! 평가용 데이터로 모델이 예측한 y값이랑 실제 y값(사람이 정한 답)을 비교해서 얼마나 .. 더보기
아티클 정리 | 인공지능의 역사, 분류 그리고 발전 방향에 관한 연구 머신러닝에 대해 공부를 시작하면서 온라인 강의로는 조금 부족하다고 생각이 들었는지, 부트캠프 측에서 몇 가지 아티클과 자료를 준비해주셨다. 그리고 스스로 정리해보라며 링크를 주셨는데, 원래는 포맷이 있는 것 같은데 포맷까지 써가면서 정리하기는 넘 딱딱하고, 그냥 스스로 공부한 거 정리한다는 생각으로 내맘대로 주절주절 썰 풀듯이 써본다.  인공지능의 역사, 분류 그리고 발전 방향에 관한 연구한국전자통신학회에서 발행하는 학술지에 실린 소논문이고 저자는 조민호 교수님이다. 아래 내용은 논문 내용을 바탕으로 내 맘대로 해석하고 그걸 의식의 흐름대로 구성을 바꿈.  1. 인공지능, 대체 뭔데?인간의 지능을 흉내낸 인공적인 지능. 휴먼의 지능도 어떻게 정의하는지, 어떻게 지능이 나타나는지 알 수 없는 마당에 인공지.. 더보기
책편집과 EDA의 공통점 | 이상치/결측치를 잘 확인하자 *뇌피셜 주의* 오늘부터 머신러닝 베이직 강의를 듣기 시작했다. 일단 강의를 듣고 얽히고 설킨 머릿속의 실타래를 풀어보면, 머신러닝은 기계가 학습을 해서 결과물을 내놓는 것이다. 들어가는 인풋과 나오는 아웃풋만 주고 그 안에 어떻게 연산을 거치게 하는지는 기계가 스스로(?) 오차를 계산해서 최적의 결과물을 내놓을 수 있게 한 것. 그리고 기계한테 인풋과 아웃풋을 줄 때는 숫자로 바꿔서 줘야 알아먹을 수 있다. 이 인풋과 아웃풋 정보를 데이터라고 할 수 있는데, 다양한 데이터 유형이 있다. 물론 쓰레기를 넣으면 쓰레기가 나온다는 당연한 말처럼, 좋은 데이터를 줘야 좋은 품질의 모델을 학습할 수 있다. 그래서 데이터를 "잘" 주는 방법으로 EDA가 소개되었는데 이 부분에서 묘하게 글쓰기라던가 글을 편집하는 .. 더보기
학습일지| AI를 위한 기초 수학 후기 | 딜런 강사님 이번 주에는 AI를 위한 기초 수학 강의가 3일 연속해서 있었다. 월요일에는 프로젝트 결과 발표하고 다른 팀 발표를 듣고 끝났고, 화요일에는 혼자서 갑자기 쉘든 챗봇을 만들어보는 것에 빠져있었는다. 수요일에 처음 수학과 너무 너무 오랜만에 만났는데, 강사님부터 뭔가 남달랐다. 강의 중에 말씀을 하실 때에도 정확한 명칭의 단어와 정의를 생각하시는 듯 했다. (이게 수학과인가..?)시간표에 분명 '기초 수학'이라고 적혀있어서 가벼운 마음(?)으로 임했는데 부트캠프 시작하고 나서 역대급으로 가장 힘든 수업이였다. 강사님은 정말 좋았다. 일단 수학이 어렵다는 걸 인정하고, 있는 그대로를 설명해주려고 하시는 게 좋았다. 예전에 유튜브 영상같은거 대본 쓰거나 할때, (나도 잘 이해가 안가는) 과학적 개념을 최대한 .. 더보기
기초통계특강 복습 필기 더보기
랭체인 | 빅뱅이론 쉘든 캐릭터 페르소나를 가진 챗봇 만들기 월요일에 각 팀에서 만든 QA엔진과 챗봇을 발표하는 시간이 있었다. 우리 팀은 QA 엔진을 만들었는데, 다른 팀 발표를 보니 챗봇 만드는 것도 너무 재밌어보였다! 나도 한번 해봐야지 하고 어제 하루종일 붙잡고 있었다. 내가 좋아했던 미드 빅뱅이론에 쉘든이라는 캐릭터를 가지고 챗봇을 만들어 보는 중.. 아직 확실하게 완성된 건 아닌데 일단 물어보면 그럴듯하게 답변이 나오는 것 같아서 깃허브에 ipynb 파일 그대로 냅다 올려놨다. 정리는 아직 못했다.ㅠ 사실 챗 히스토리 부분?이 아직 잘 이해가 안가서 정리가 안됐기도하고. 빅뱅이론이 워낙 인기있었던 미국 드라마라 전체 스크립트를 쉽게 찾을 수 있었다. https://bigbangtrans.wordpress.com/ Big Bang Theory Transc.. 더보기