본문 바로가기

공부방/Upstage AI Lab 4기

진짜로 나는 지금 뭘 배우고 있는 건가 인공지능 부트캠프를 시작한지 벌써 2달이 다 되어간다. 6개월짜리 과정이니, 1/3은 벌써 지나간 셈이다. 이쯤되면 정신없이 지나왔던 2개월을 한번쯤 되돌아볼 필요가 있을 것 같다. 2달 전 처음 부트캠프를 시작했을 무렵에는 프로그래밍을 거의 할 줄 몰랐고, 파이썬 기본 문법 정도만 알고 있던 상태였다. 지금도 크게 나아졌다고는 할 수 없지만, 일단 코딩에 대한 두려움은 많이 사라진 느낌이다. 자신감이 생겨서가 아니라, 그냥 코드는 올바르게 입력한다면 동작할 것이라는 것을 알게 됐달까... 그걸 짜내는 것은 여전히 아직 갈 길이 먼 휴먼지능의 일로 남았지만, 어쨌든 배우고 익숙해지면 코딩은 해결될거라는 믿음이 생겼다. 이게 첫 번째로 생긴 좋은 변화같다.그리고, 엄청난 양의 강의. 부트캠프를 주최한 곳이.. 더보기
머신러닝 경진대회 | 데이터 스케일링, 레이블 인코딩 2024.09.13 - [프로젝트] - 머신러닝 경진대회 | 결측치 메꿔주기지난 편에 이어서... 결측치를 메꿔주고, (이상치도 조정해줘야하는데 이번 프로젝트에서 크게 다루지 않아서 패스.. 이상치는 데이터에서 첨부터 빼버림) 모델을 돌리기 전에 또 해야하는 것은 데이터 스케일링 작업이다. 일단 내가 이해한 대로 끄적여보자면, 스케일링은 모델이 학습을 할 때, 피쳐마다 제각각인 단위와 숫자 범위를 가지고 있어서 커다란 숫자가 있는 피쳐에 과하게 집중하는 것을 막기 위해서 작업해준다. 예를 들어서 아파트 넓이는 10~100 단위에서 왔다갔다 하고, 지역별 평균 가격은 몇 억 단위에서 왔다갔다하는데 두 개를 그대로 모델에 학습하라고 주면, 모델이 아파트 넓이는 숫자가 작아서 별로 중요하지 않다고 생각하고 학.. 더보기
머신러닝 경진대회 | 결측치 메꿔주기 2024.09.07 - [프로젝트] - 머신러닝 경진대회 1 | 데이터 탐색 EDA지난 편에 이어 데이터 전처리를 계속해보자. (다루고 있는 데이터는 structured data 정형 데이터)데이터를 파악할 때, 수치형 변수인지 범주형 변수인지를 먼저 확인해본다. (수치형은 또 연속형/이산형으로 나뉘고, 범주형 변수는 명목형, 순위형으로 나뉨)숫자값을 가지는 데이터라면 숫자의 특징을 이용해서 결측치나 이상치를 파악할 수 있고, 글자로 된 데이터라면 다른 방식을로 모델이 이해할 수 있도록 처리해줘야하기 때문이다. (데이터를 모델이 잘 알아먹을 수 있도록 숫자로 변환해줘야 한다.) 범주형 데이터를 수치적으로 표현하는 방법: Indexing 인덱싱각 범주의 순서를 임의로 정해 0번부터 번호를 부여하는 방법. .. 더보기
머신러닝 경진대회 1 | 데이터 탐색 EDA 2024.09.02 - [프로젝트] - 머신러닝 경진대회 1 | 데이터 분석 EDA 혼자 해보기지난 포스팅보다 좀 더 본격적으로, EDA를 책을 보며 따라가봤다. 먼저 데이터 탐색을 위해 복사본을 생성한다.traindata = pd.read_csv('/data/ephemeral/home/data/train.csv')traindata_copy=traindata.copy() 각 피쳐의 특징을 조사해보자info() 메서드를 사용해 데이터에 대해 간략한 개요를 확인한다. 확인할 수 있는 주요 정보는, 52개의 컬럼(피쳐)과 1118822개의 행(row)가 있다는 사실, 인덱스의 범위는 0부터 1118821까지이며, 각 컬럼의 이름과 컬럼의 데이터 특성을 알 수 있다. 숫자 아니면 object인데 object에 .. 더보기
머신러닝 경진대회 1 | 판다스로 데이터 합치기 서울시 아파트 실거래가 정보가 담긴 대용량 데이터셋이 주어져있다. 서울시에 각 구에 따라 백화점과 쇼핑센터가 몇 개가 있는지 통계 자료를 이 데이터셋에 추가하려고 한다. 백화점과 쇼핑센터를 동시에 다루는 게 어려운 것 같아서 일단 각 구에 위치한 백화점 개수를 연도별로 세어서 아래와 같이 정리했다.지금부터 하려는 건, train.csv 파일에 있는 주소와 계약년도 데이터를 보고, 이에 해당하는 백화점 개수를 새로운 피쳐로 추가하려는 것!train.csv 파일의 피쳐 중에서 '시군구'랑 '계약년월'에 구와 연도가 들어있다. 그래서 일단 이 두개의 정보를 따로 뽑아서 새로운 컬럼으로 만들어줬다. #데이터셋에 있는 주소 기준으로 구 정보만 뺌gu = traindata['시군구'].str.split().str[.. 더보기
VS Code 터미널에 브랜치 이름 표시하기 touch ~/.zshrc 를 하고, open ~/.zshrc해서 열어준 다음에아래 문장 추가autoload -Uz vcs_infoprecmd() { vcs_info }zstyle ':vcs_info:git:*' formats '(%b)'setopt PROMPT_SUBSTPROMPT='%F{green}%*%f %F{blue}%~%f %F{red}${vcs_info_msg_0_}%f $ '저장하고 닫은 뒤에 source ~/.zshrc 를 한 뒤에 보면 아래처럼 시간, 현재폴더, 브랜치이름이 뜬다. 더보기
GIT | Git 쓰는 법 다시 정리!!! (초보용) 1. Git으로 관리하고 싶은 폴더를 만든다.2. 생성한 폴더로 이동한 다음에 git init 으로 초기화를 해준다.3-1. Github 레포지토리를 연결한다. (새로운 깃 레포지토리를 만들었을 때)git remote add origin 주소git remote -v 를 하면 잘 연결됐는지 확인할 수 있다.3-2. 기존 github에 레포지토리를 가져올 때git clone 주소cd repo-name 4. 초기 커밋을 생성하고 푸시한다. (이 방식을 사용하면 로컬에서 작업을 시작하고 필요할 때 원격 레포지토리와 동기화할 수 있습니다.)git add . git commit -m "Initial commit"더보기*문제상황git remote add origin 주소를 하고 내 로컬에서 새로운 브랜치를 만들려고 .. 더보기
머신러닝 경진대회 1 | 데이터 분석 EDA 혼자 해보기 지난 포스팅에서 데이터셋을 다운받아서 압축을 푸는 것까지 했다. 아래는 지난 포스팅 링크. 2024.09.02 - [프로젝트] - 머신러닝 경진대회 1 | 대회 파악 & 환경 세팅이제 본격적으로 데이터를 열고 대략적으로 분석해보자! 데이터셋은 csv 형태이며, 아래와 같이 5개의 csv파일이 있다. csv 파일을 누르면 VS Code에서 바로 열어볼 수 있는데, train.csv 파일은 용량이 너무 커서 진짜 열꺼냐고 다시 물어본다. 무려 244MB크다는데 억지로 열면 안좋다고 하니 다른 방법을 찾아봐야 할듯.판다스 라이브러리를 사용해서 EDA를 진행해보자!df.shape를 출력 - (1118822, 52) 무려 100만개가 넘는 인스턴스를 가지고 있다. (인스턴스 대신에 행, 관측치, 샘플, 레코드 등.. 더보기