BLEU(Bilingual Evaluation Understudy)
BLEU는 기계 번역 모델의 성능을 평가하기 위한 것으로, 생성된 번역문이 참조된 번역문과 얼마나 많은 겹치는 단어를 갖고 있는지를 기반으로 계산된다. BLUE의 핵심은 1-gram(단어 하나), 2-gram(단어 둘 묶음).... 등 Precision을 계산하는 것이다. 만일, 생성된 문장의 한 단어가 참조 문장에 너무 많이 등장하는 경우, 해당 단어의 최대 일치 횟수를 참조 문장에서 실제로 등장하는 횟수로 제한하며, 이는 번역문이 한 단어를 무의미하게 반복해서 높은 점수를 받는 것을 방지하기 위함이다.
그렇게 계산된 1-gram부터 4-gram까지의 정밀도 점수들을 단순히 산술 평균하지 않고 기하 평균을 내는데, 그렇게 해야 모든 길의 N-gram이 적절하게 점수에 반영되기 때문이다.
BLEU는 계산이 빠르고 구현이 쉽다는 장점 때문에 여전히 널리 사용되지만, 앞서 논의된 바와 같이 의미적 유사성을 파악하지 못하고 단어 형태만 비교한다는 한계 때문에 BERT Score와 같은 새로운 지표들과 병행하여 사용되는 추세인 아픔이 있다.. 그렇다 해도 기계 번역 평가 모델, 단일 문장의 정밀한 일치도 요구 같은 상황에서는 나름 괜찮은 선택일 수 있다.
ROUGE(Recall Oriented Understudy for Gisting Evaluation)
ROUGE는 주로 텍스트 요약 모델의 성능을 평가하기 위한 지표로, 모델이 생성한 요약문이 사람이 작성한 참조(정답) 요약문의 핵심 정보를 얼마나 많이 포함하고 있는지(Recall)를 측정하는 데 중점을 둔다. 그러니까 BLEU가 Precision에 중점을 두는 것과 달리, ROUGE는 Recall에 중점을 두는 것이다. 이야기가 이렇게 흘러가면 벌써 BERT는 어떤 원리일지 감이 올 것이다.
다시 돌아와서, 요약의 목적이라 함은, 원문에서 가장 중요한 정보를 빠짐없이 뽑아내는 것이기 때문에, 생성된 요약문이 정답 요약문의 중요한 단어들을 얼마나 포착했는지를 평가한다.
그렇기에 '요약'이라 하면 ROUGE가 빠지기 섭한 것은 두말 할 필요가 없고, 그밖에 질의응답 평가 지표 같은 것들에서도 ROUGE가 한 몫을 할 수 있다. '핵심 정보의 누락을 최소화'하는 것이 목표인 모델에서는 ROUGE가 충분히 쓰임새가 있다는 것이다.
BERT Score
BERT Score는 자연어 생성 모델이 만든 텍스트의 품질을 평가하기 위한 지표로, ROUGE와 BLEU의 한계를 극복하기 위해 문맥적 임베딩을 활용한다. 여기서 '한계'란, ROUGE와 BLEU에서 의미를 정확하게 평가하지 못하고, 단어의 형태에만 의존했던 것을 말한다. BLEU와 ROUGE는 생성된 문장과 참조 문장 간의 단어 일치율을 기반으로 점수를 매기는데, 그러다 보니 동의어사 유사 표현을 무시하게 되고, 문법적으로 엉망이거나 문맥이 맞지 않아도 우연히 높은 점수를 받을 수 있다.
예를 들어, 정답이 '수달이는 너무 귀엽다'인데,
생성1: 수달이는 너무 사랑스럽다
생성2: 는 너무 귀엽다 수달이
인 상황에서 생성2가 더욱 점수를 높이 받을 수 있는 상황을 깨고자 하는 것이 BERT 스코어인 것이다. BERT Score는 BERT의 문맥적 임베딩을 사용함으로써, 단어 형태가 달라도 의미적 유사성이 높으면 높은 점수를 주어 이러한 한계들을 효과적으로 극복한다.
BERT Score는 기본적으로 토큰 레벨의 Precision과 Recall을 계산한 후, 그 둘의 F1 Score를 최종 점수로 사용한다. 즉, 놓친 정보를 최소화하는 것, 불필요한 정보를 최소화하는 것 모두를 고려하여 최종적인 의미적 유사성을 평가하는 것이다.
BERT Score의 장점으로는 다음이 있다.
① 높은 인간 상관관계: 기존 지표들보다 사람의 평가 점수와 훨씬 높은 상관관계를 보인다. 즉, 사람이 '잘 만든 문장'이라고 판단하
였다면, BERT Score도 높을 것이다.
② 유연한 의미 평가: 단순한 단어 일치 여부가 아닌 의미적 문맥을 기반으로 평가하므로, 동의어나 문장 구조가 조금 달라도 의미가 보존되면 높은 점수를 받는다.
③ 다국어 지원: BERT 모델이 사전 학습된 언어라면, 해당 언어의 텍스트 생성 품질을 효과적으로 평가할 수 있다.
'보안 > 개념' 카테고리의 다른 글
| [AWS] PartyRock (0) | 2025.11.11 |
|---|---|
| [AWS] Amazon SageMaker Feature Store & Canvas (0) | 2025.11.07 |
| [AWS] Amazon SageMaker Model Card & Model Registry (0) | 2025.11.06 |
| [AWS] AUC & MSE & MAE (0) | 2025.11.05 |
| [AWS] Recall & F1 Score (0) | 2025.11.04 |