보안/개념

[AWS] AUC & MSE & MAE

수달정보보호 2025. 11. 5. 20:46

AUC

AUC 평가지표는 로지스틱 회귀 등과 같이 확률값을 출력하는 알고리즘의 이진 분류 성능을 비교·평가할 때 사용된다.
이때 모델이 반환한 확률값을 실제 분류 결과로 변환하기 위해 임계값(threshold)과 비교하여 Positive 또는 Negative로 판정한다.

여기서 사용되는 곡선은 ROC 곡선(Receiver Operating Characteristic curve)이라 하는데, TPR(True Positive Rate)과 FPR(False Positive Rate)의 관계를 나타낸다.


임계값을 높이면 False Positive의 수는 줄어들지만, 동시에 False Negative의 수는 증가하게 된다.

AUC는 이러한 ROC 곡선 아래의 면적을 의미한다. 따라서 AUC는 가능한 모든 분류 임계값 전반에 걸친 모델의 종합적인 성능 측정값을 제공한다.

따라서 AUC 값의 범위는 0에서 1 사이이며, 값이 1에 가까울수록 완벽한 분류 정확도를 의미하고, 0.5는 무작위(random) 분류기와 성능이 동일함을 의미한다. 즉, AUC가 높다는 것은 모델이 긍정 샘플을 부정 샘플보다 더 높은 확률 값으로 평가하는 능력이 뛰어나다는 것을 의미하는 것이라 할 수 있다.

 

MAE

MAE는 예측값과 실제값의 차이를 모든 관측값에 대해 평균한 오차의 크기를 나타내는 지표다. 이는 회귀 분석(regression analysis)에서 모델의 예측 오차 정도를 파악하기 위해 일반적으로 사용된다.

 

 

위 식에서 y의 앞은 i번째 샘플의 실제 값, 뒤의 y는 i번째 샘플에 대한 예측 값을 나타낸다.


선형 회귀(linear regression)의 경우, MAE는 예측 선(predicted line) 과 실제값(actual value) 사이의 평균 거리로 해석할 수 있다. 이때 MAE는 절대 오차의 합계를 관측 숫자로 나눈 값으로 정의된다.

따라서 MAE 값의 범위는 0에서 무한대까지이며, 값이 작을수록 모델이 데이터에 더 잘 맞는다는 것을 의미한다.

 

즉, MAE는 모델이 예측할 때 평균적으로 얼마나 틀렸는지를 실제 값과 동일한 단위로 나타내는 것이며, 주택 가격 예측 모델의 MAE가 10,000달러라면, 이 모델의 예측은 실제 주택 가격과 평균적으로 +-10,000달러만큼 차이 난다는 의미라 할 수 있다.

 

MAE는 오차의 단위가 실제 값의 단위와 같아서 결과를 직관적으로 이해하기 쉽고, MAE는 오차에 제곱을 하지 않기 때문에, RMSE(Root Mean Squared Error)와 같은 다른 회귀 지표에 비해 극단적인 이상치에 덜 민감하게 반응하는 특성이 있다.

 

그렇기에 MAE는 오차의 크기가 선형적이며, 이상치의 영향을 줄이고 싶을 때 주로 사용한다고 보면 된다. AWS 경우, Amazon SageMaker에서 회귀 모델(ex. 가격 예측, 수요 예측, 온도 예측)을 훈련하거나 평가할 때, MAE는 모델의 성능을 빠르고 직관적으로 파악하기 위한 기본 지표로 사용될 수 있을 것이다.

MSE

MSE는 예측값과 실제값의 차이를 제곱한 후, 그 값을 평균한 지표이다. 이 역시 보통 회귀(regression) 문제에서 사용된다.
MSE 값은 항상 positive이며, 모델이 실제값을 더 정확히 예측할수록 MSE 값은 작아진다.

 

MAE와 마찬가지로 예측값과 실제 값의 차이를 측정하지만, 오차를 제곱하여 계산한다는 점에서 중요한 차이점이 있다. 그러니까 MSE는 오차의 크기에 가중치를 두어 모델이 큰 오차(Large Errors)에 더 민감하게 반응하도록 만드는 것이다. 

 

제곱이 붙었다는 것, 이것은 결국 MAE에 비해 더욱 큰 오차에 페널티를 부여하겠다는 의미로 해석할 수 있다. 오차에 제곱을 하기 때문에, 작은 오차(ex. 0.1)는 더 작아지고, 큰 오차(ex. 10)는 훨씬 커진다. 그런데 이 제곱이 또 다른 특징도 안겨주는데, MAE와 달리, MSE의 값은 측정 단위의 제곱 형태를 띠게 되므로, 실제 오차의 크기를 직관적으로 해석하기 어렵다.

 

MSE는 큰 오차를 허용할 수 없을 때나, 모델 학습 과정에서 수학적 편의성을 활용하고자 할 때 주로 사용된다. 회귀 모델을 학습시키는 과정 자체에서 오차를 줄이는 목적으로 사용될 때, 예측 오차가 클수록 비용이나 위험이 기하급수적으로 증가하는 경우 등에서 사용되는 것이다. 

 

결론적으로, MSE는 큰 오차를 강력하게 억제하여 모델의 안정성을 높이고자 할 때 유용하며, 회귀 모델의 학습을 위한 핵심적인 도구라 할 수 있다. 

 

 

728x90