보안/개념

[AWS] Recall & F1 Score

수달정보보호 2025. 11. 4. 21:01

Recall(재현율)

재현율은 알고리즘이 데이터세트의 모든 True Positive를 얼마나 정확하게 예측하는지 측정한다. True Positive는 양성 예측이며 데이터에서 실제 양수이기도 하다. 이때 재현율은 다음과 같이 정의된다.
 
Recall = TP/ (TP+FN)
 
물론 값의 범위는 0에서 1까지다. 점수가 높을수록 모델이 데이터의 True Positive를 더 잘 예측할 수 있음을 나타낸다. 이는 마찬가지로 바이너리 분류에 사용된다.
 
암 검사를 할 때는 재현율이 중요하다. 이는 True Positive를 모두 찾아내는 데 사용되기 때문이다. False Positives는 데이터에서 실제로는 음성인데 양성으로 예측하는 것을 반영한다. 모든 출력값을 TP로 예측하면 완벽한 재현율 점수를 얻을 수 있기 때문에 재현율만 측정하는 것으로는 충분하지 않다.
 
그런데 이 Recall의 계산식을 보면 Precision과 매우 유사하다는 것을 알 수 있다. 그래서 이 차이를 구분하는 게 중요한데, Precision은 모델이 True Positive이라고 예측한 결과 중 실제로 정답인 비율이며, False Positive을 줄이는 게 중요한 것이다. 이에 반해, Recall은 실제 정답인 Actual Positive 중 모델이 올바르게 예측한 비율을 말하며, False Negative를 최소화하는 것에 중점을 둔다. 더욱 직관적으로 대조한다면, Precision: 모델이 맞다고 했을 때 그 말이 맞을 확률이 얼마나 되는가? Recall: 실제 정답 중에서 모델이 얼마나 많이, 그리고 잘 찾아냈는가? 인 것이다.
 
따라서 FP의 비용이 크다면 정밀도를 우선하는 게 유리할 것이고, FN의 비용이 클 때는 Recall을 우선하는 게 유리할 것이다. 그렇기에 이전 글에서 질병 진단, 침입 탐지의 예시를 말하기는 했으나, 엄밀히 말하면 그 둘은 Recall에 더욱 적합하며, Precision은 스팸 메일 분류, 추천 알고리즘의 사례에 더욱 적합한 것이다.
 

F1 Score(F1 점수)

F1 점수는 정밀도(precision)와 재현율(recall)의 조화평균으로 정의되며, 다음과 같이 계산된다.

 
F1 = 2 × (precision × recall) / (precision + recall)

이 지표는 전통적으로 양성(positive)과 음성(negative) 두 개의 클래스로 분류하는 이진(바이너리) 분류 문제에 사용된다.
예측 결과가 실제 (정답) 클래스와 일치하면 참(true), 일치하지 않으면 거짓(false) 으로 간주한다.
 
이 F1 스코어는 두 지표의 균형잡힌 성능을 하나의 수치로 표현해 주기 때문에 클래스 불균형 문제에서 모델의 성능을 평가할 때, Accuracy보다 훨씬 신뢰성 있는 지표가 될 것이다.

F1 스코어의 계산식을 보면 알겠지만, precision과 recall 모두가 중요한 변수다. 그렇기에 F1 스코어에서는 FP와 FN 모두가 중요하며, 균형이 필요할 때 가장 유용하다. 그렇기에 Fine tunning, 미세 조정을 한 결과물의 정확도를 평가할 때 F1 스코어는 좋은 선택이 될 것이다.

728x90

'보안 > 개념' 카테고리의 다른 글

[AWS] Amazon SageMaker Model Card & Model Registry  (0) 2025.11.06
[AWS] AUC & MSE & MAE  (0) 2025.11.05
[AWS] Accuracy & Precision  (0) 2025.11.03
SDN(Software Defined Networking) 총정리  (2) 2025.08.04
ISRM 내용 정리  (1) 2025.05.20