본문 바로가기

공부방/Upstage AI Lab 4기

책편집과 EDA의 공통점 | 이상치/결측치를 잘 확인하자

*뇌피셜 주의*

 


오늘부터 머신러닝 베이직 강의를 듣기 시작했다. 일단 강의를 듣고 얽히고 설킨 머릿속의 실타래를 풀어보면, 머신러닝은 기계가 학습을 해서 결과물을 내놓는 것이다. 들어가는 인풋과 나오는 아웃풋만 주고 그 안에 어떻게 연산을 거치게 하는지는 기계가 스스로(?) 오차를 계산해서 최적의 결과물을 내놓을 수 있게 한 것. 그리고 기계한테 인풋과 아웃풋을 줄 때는 숫자로 바꿔서 줘야 알아먹을 수 있다. 이 인풋과 아웃풋 정보를 데이터라고 할 수 있는데, 다양한 데이터 유형이 있다. 물론 쓰레기를 넣으면 쓰레기가 나온다는 당연한 말처럼, 좋은 데이터를 줘야 좋은 품질의 모델을 학습할 수 있다. 그래서 데이터를 "잘" 주는 방법으로 EDA가 소개되었는데 이 부분에서 묘하게 글쓰기라던가 글을 편집하는 과정에서 했던 일들이 겹쳐 생각났다. 

EDA (Exploratory Data Analysis; 탐색적 데이터 분석)
데이터를 꺼내서 열고 각 변수를 살펴보고 의미를 파악하며, 전체적인 특성이나 분포를 이해하는 과정.

데이터에는 노이즈가 있다.

노이즈는 대표적으로 이상치나 결측치가 있는데, 이상한 값이 들어가 있는 경우다. 사람은 기계가 아니기 때문에 당연히 이상한 단어나 문장이나 잘못 들어가기도 한다. ㅋㅋㅋ 아래 짤은 출판사 흔한 실수 짤로 돌아다니던 건데 이상치 비유랑 들어맞는 느낌 ㅋㅋㅋ 이런 거 말고도 그림이나 사진 밑 캡션에 들어갈 문장을 복사 붙여넣기를 반복하다가 잘못 들어가는 경우도 있고, 하나의 글 안에서 "인공지능"이라는 글자가 들어간다고 치면 이걸 AI라고 썼다가, 인공지능이라고 썼다가, 뭐 다른 식으로 썼다가 왔다갔다해서 나중에 데이터로 모았을 때 제대로 처리하기 어려운 경우도 있을 수 있다. 

기사나 원고라고 치면 이런 자잘한 이상치는 수정하면 된다. 그런데 데이터를 다룰 때에는 사람이 수정을 어떻게 가하느냐에 따라 전반적인 데이터 품질에 이상이 생길 수도 있고 편향이 생길 수도 있다고 하니, 케바케로 하나하나 원인을 파악하고 어떻게 처리할 지 고민해야하는 건 마찬가지인 듯하다.