BLEU (Bilingual Evaluation Understudy) は、機械翻訳の分野において最も広く採用されている自動評価指標の一つです。その本質は、機械翻訳システムが出力した候補訳文が、人間が作成した参照訳文(正解)とどれだけ表面的な類似性を持つかを、統計的な手法を用いて定量的に測定することにあります。
このスコアの計算の核心は、n-gramの一致度にあります。n-gramとは、連続する個の単語の並びを指し、BLEUでは通常、ユニグラム(1単語)からフォーグラム(4単語)までの一致率を組み合わせて用います。
具体的には、候補訳文に含まれる各n-gramが、参照訳文内に存在する数をカウントし、その適合率(Precision)を算出します。この際、冗長な訳文が高く評価されるのを防ぐため、単語の出現回数にはクリッピング処理を施す修正n-gram精度が導入されています。
最終的なBLEUスコアは、これらの異なるn-gramの適合率を幾何平均によって統合し、さらに簡潔性ペナルティ (Brevity Penalty) を乗じることで導出されます。
このペナルティは、候補訳文が参照訳文よりも不当に短い場合にスコアを抑制するために適用されます。スコアの範囲はから(またはから)で、値がに近いほど高品質な翻訳であると見なされます。
BLEUの利点は、その計算の効率性と再現性の高さにあり、機械翻訳モデルの研究開発におけるベンチマークとして不可欠な存在です。しかし、評価が語彙的なマッチングに依存するため、同義語や意味的な正確性、そして自然な文法構造といった流暢性(Fluency)を捉える能力には限界があるという欠点も認識されています。
したがって、絶対的な翻訳品質を評価するためには、人間の評価との相関性を補完するための他の評価指標と併用することが推奨されます。
