imbalance

    [불균형 데이터] 평가지표 (Metrics)

    불균형 데이터에 대처하는 방법은 다양합니다. 오버샘플링 & 리샘플링과 같은 Resampling 기법을 활용한다던가, Cost Matrix를 만들어서 분류 모델에 클래스별 가중치를 부여하는 방법도 있습니다. 위 기법도 중요하지만, 무엇보다도 중요한 것은 "어떻게 불균형 데이터를 평가할 것인가?"입니다. (수식과 혼동행렬은 곧 업데이트 하겠습니다) Accuracy 정확도(Accuracy)를 사용하기에는 너무 편향된 결과를 야기할 수 있습니다. 예를 들어보겠습니다. 암 환자에 대해서 검사를 한다고 했을 때, 데이터 내 실제 암 환자는 1명이고, 정상인 환자가 99명 있다고 가정하겠습니다. 우리는 모든 데이터를 음성(정상)이라고 예측하면 모델의 정확도는 99/100, 즉 99%가 됩니다. 이렇게만 본다면 매우 ..