학습일지 | Data Centric AI
Data Centric AI:
데이터를 중심으로 결과/성능을 향상시키는 접근 방식
몇 번의 프로젝트 때마다 항상 강조됐던 것인데 이렇게 따로 모아서 강의를 들어보는 것도 좋았다.
데이터 수집부터 전처리, 라벨링, 스플릿하는 법, 데이터 분석 등 데이터 기반으로 살펴봐야 할 것들을 전부 다 다룬다.
1. 데이터 수집
물론 직접 데이터셋을 구축하는 법도 있지만(직접 한땀한땀 만든다거나 크롤링을 한다거나), 오픈소스로 공개된 데이터셋을 가져오는 방법, 그리고 기존에 가지고 있는 데이터를 어그멘테이션으로 늘리는 방법도 있다. 예전에는 라벨러들을 고용해서 데이터 라벨링을 하는 알바도 있었는데. 그것도 하나의 데이터셋 구축이라고 할 수 있다.
2. 데이터 전처리
이건 너무 다양해서 케바케
3. 데이터 라벨링
라벨링 규칙이나 가이드라인, 라벨링 툴에 대한 소개가 있었다. 어떤 것들을 고려하면 좋을지에 대해 포괄적으로 설명해주셨는데, 대충 이런 게 있다 정도로 듣고 넘어갔다. 라벨링의 세계도 데이터의 개수만큼이나 많을테니까.
4. 데이터 클렌징
데이터 품질을 높이기 위한 작업들. 데이터 클렌징과 평가 방법인 IAA에 대해 알게 됐다. IAA는 데이터 품질을 평가하는 방법이라고 할 수 있는데, 다른 메트릭과 함께 활용할 수 있다.
5. 데이터 스플릿
데이터가 완성됐으면 이제 데이터 스플릿을 해야하는데, 트레인과 밸리드, 테스트를 각각 몇 대 몇의 비율로 할 것인지 정하는 단계다. 데이터를 나누고 샘플링 하고, 부족한 데이터는 어그맨테이션을 하거나 액티브 러닝으로 라벨링 데이터를 늘릴 수도 있다.
6. 데이터 릴리즈
배포할 때 주의해야 할 점들에 대한 내용.
그리고 CV 분야와 NLP 분야에서 합성 데이터를 만들어 보는 실습을 진행했다.