데이터 제작의 중요성 2

1. Life Cycle of an AI Project

AI Research vs AI Production

보통 수업/학교/연구에서는 정해진 데이터셋/평가 방식에서 더 좋은 모델을 찾는 일을 함.

하지만 서비스 개발 시에는 데이터 셋은 준비되어 있지 않고 요구사항만 존재함!

그래서 서비스에 적용되는 AI 개발 업무의 상당 부분이 데이터셋을 준비하는 작업임🙄!


Production Process of AI Model

서비스향 AI 모델 개발 과정은 크게 4가지로 구성되어 있음!

이 과정의 목표는 요구사항을 충족시키는 모델을 지속적으로 확보하는 것이고 방법으로는 두가지가 있음!

모델 성능 달성에 있어서 데이터와 모델에 대한 비중은 어떨까!?

그렇다면 사용 중인 모델의 성능 개선 시에는 데이터와 모델에 대한 비중은 어떻게 바뀔까!?

  1. 서비스 출시 후에는 정확도에 대한 성능 개선 요구가 제일 많음
  2. 이 때 정확도 개선을 위해 모델 구조를 변경하는 것은 처리속도, qps, 메모리 크기 등에 대한 요구사항에 검증도 다시 해야 하므로 비용이 큼

2. Data! Data! Data!

2.1 Data-related tasks

예상보다 데이터와 관련된 업무가 왜 이렇게 많을까!?

  1. 어떻게 하면 좋을지에 대해서 알려지 있지 않다!

    • 학계에 나오는 논문의 대부분은 모델(구조/학습방법)에 관련된 논문
    • 학계에서 데이터를 다루기 힘든 이유 -> 좋은 데이터 모으기 힘듬, 라벨링 비용이 큼, 작업 기간이 김.
  2. 데이터 라벨링 작업은 생각보다 많이 많이 어렵다!

    • 데이터가 많다고 모델 성능이 항상 올라가는 것은 아님😮
    • 라벨링 결과에 대한 노이즈 = 라벨링 작업에 대해 일관되지 않음의 정도
    • 잘못 작업된 라벨링 결과를 학습 시 무시하게 하려면 적어도 깨끗이 라벨링된 결과가 2배 이상 필요
      • 라벨링 노이즈를 상쇄할 정도로 깨끗한 라벨링 데이터가 골고루 일정하게 많아야 한다!
  1. 데이터 불균형을 바로 잡기가 많이 어렵다!

이 작업을 효율화 하기 위한 방법

  • 해당 task에 대 한 경험치가 잘 쌓여야 하므로 결국 도메인 지식이 많을 수록 예외 경우에 대해서 미리 인지를 할 수 있어야함!

+ Recent posts