BLEU(Bilingual Evaluation Understudy)BLEU는 기계 번역 모델의 성능을 평가하기 위한 것으로, 생성된 번역문이 참조된 번역문과 얼마나 많은 겹치는 단어를 갖고 있는지를 기반으로 계산된다. BLUE의 핵심은 1-gram(단어 하나), 2-gram(단어 둘 묶음).... 등 Precision을 계산하는 것이다. 만일, 생성된 문장의 한 단어가 참조 문장에 너무 많이 등장하는 경우, 해당 단어의 최대 일치 횟수를 참조 문장에서 실제로 등장하는 횟수로 제한하며, 이는 번역문이 한 단어를 무의미하게 반복해서 높은 점수를 받는 것을 방지하기 위함이다. 그렇게 계산된 1-gram부터 4-gram까지의 정밀도 점수들을 단순히 산술 평균하지 않고 기하 평균을 내는데, 그렇게 해야 모든 길의..