문서분류인공지능모델 썸네일형 리스트형 [CV 문서 분류 대회] 신뢰성 있는 validation set은 어떻게 만들지? 대회를 앞둔 특강에서 강사님께서 이런 얘기를 강조하셨다. 신뢰할 수 있는, 테스트 결과와 비슷한 추세를 갖는 validation set을 만들어 놓으면, 나중에 제출횟수의 부담 없이 많은 실험을 해볼 수 있다. 테스트 데이터셋을 보니 어그멘테이션이 강하게 들어간 더러운(?) 이미지들이 많았다. 그래서 트레인 이미지도 테스트 이미지처럼 최대한 더럽게 만들고 폴드를 나눠 검증하기로 했다. k-fold는 클래스별로 비율을 맞춰서 넣을 수 있게 하는 StratifiedKFold를 사용해 폴드 5개로 나눠서 4개 폴드가 돌 때 1개 폴드는 검증용으로 쓸 수 있도록 했다. (처음에는 임밸런스된 데이터, 1, 13, 14번 클래스의 이미지가 적은 상태로 데이터를 증강시킨 것을 사용했기 때문에, 부족한 클래스도 골고루.. 더보기 이전 1 다음