데이터프레임 merge할 때 중복값 때문에 shape이 망가진다면
어제 밤에 아파트 거래 데이터의 x, y 좌표(위도, 경도) 결측치를 모두 채워주는 작업을 했었는데, 오늘 계속 전처리하려고 보니 shape이 달라져 있었다. 아래는 문제를 해결했던 과정.원래 데이터셋은 학습용과 테스트용으로 나뉜채 주어졌다. 이 두 개의 데이터셋을 합친 다음에, 둘을 구분해주기 위해 ['is_test']라는 컬럼을 추가한 뒤에 concat이라는 이름으로 다시 데이터프레임을 저장했다. concat.shape은 (1128094, 53)이고, 이 상태에서 x, y 좌표 결측치를 채우고 확인해보니 (1141120, 40)가 되어 있던 것! 주소와 x, y 좌표를 매치시켜놓은 데이터셋('xy'라는 데이터셋으로 데이터프레임을 저장함)과 머징하는 과정에서 뭔가 문제가 생겼다. 주소와 x, y 좌표를..
더보기