본문 바로가기

머신러닝

머신러닝 경진대회 1 | 데이터 분석 EDA 혼자 해보기 지난 포스팅에서 데이터셋을 다운받아서 압축을 푸는 것까지 했다. 아래는 지난 포스팅 링크. 2024.09.02 - [프로젝트] - 머신러닝 경진대회 1 | 대회 파악 & 환경 세팅이제 본격적으로 데이터를 열고 대략적으로 분석해보자! 데이터셋은 csv 형태이며, 아래와 같이 5개의 csv파일이 있다. csv 파일을 누르면 VS Code에서 바로 열어볼 수 있는데, train.csv 파일은 용량이 너무 커서 진짜 열꺼냐고 다시 물어본다. 무려 244MB크다는데 억지로 열면 안좋다고 하니 다른 방법을 찾아봐야 할듯.판다스 라이브러리를 사용해서 EDA를 진행해보자!df.shape를 출력 - (1118822, 52) 무려 100만개가 넘는 인스턴스를 가지고 있다. (인스턴스 대신에 행, 관측치, 샘플, 레코드 등.. 더보기
머신러닝 경진대회 1 | 대회 파악 & 환경 세팅 드디어 부트캠프의 꽃(?) 경진대회가 시작된다!업스테이지 4기 부트캠프에서는 총 4번의 경진대회가 있는데 그중 이번이 첫번째 대회이다. ML Advanced / Regression 대회  (이번에 진행하는 것!)CV Advanced / Image Classification 대회NLP Advanced /  Natural Language Inference 대회OCR & RecSys & IR & AD / 택 1오늘 오전 10시부터 11시까지는 대회 소개와 대회를 시작하기 전에 세팅해야 하는 것들에 대해서 특강이 있었다. 대회 소개House Price Prediction서울의 아파트 실거래가 데이터를 기반으로 아파트 실거래가를 예측하는 대회정형, 회귀, 금융, RMSE대회 목표정형 데이터 중 친숙한 부동산 주제.. 더보기
머신러닝 | Supervised Learning: 회귀와 분류 Supervised Learning(지도학습)일반적인 ML의 학습 방식. 입력 데이터를 넣고 함수의 출력값이 y(사람이 지정한 정답값, 사람이 설정한 라벨)에 가까워지도록 학습하는 방식. 학습을 잘 했는지 확인하기 위해서는 모델을 평가해야 한다.그렇다면 모델이 잘 학습했는지는 어떻게 평가할까?데이터셋을 학습용 데이터셋과 평가용 데이터셋으로 나누고, 학습용 데이터로 모델을 학습시켜. 모델은 x랑 y의 관계를 학습해. 이걸 바탕으로 y값을 최대한 잘 예측할 수 있게 되는 것. 그 다음에 모델한테 평가용 데이터로 x의 값만 줘. 얘는 학습에 적용된 적이 없으니까 모델 입장에서는 새로운 데이터야. x를 줬으니 y값을 맞춰봐! 평가용 데이터로 모델이 예측한 y값이랑 실제 y값(사람이 정한 답)을 비교해서 얼마나 .. 더보기