BM25(Best Match 25)は、情報検索システムにおいて文書とクエリの関連性を評価するために広く用いられるランキング関数です。
これは、TF-IDFの発展形として位置付けられ、各文書に含まれる単語の頻度(Term Frequency: TF)と、その単語が全文書集合中で出現する頻度(Inverse Document Frequency: IDF)を考慮し、さらに文書の長さによる正規化を取り入れています。
具体的には、文書中の単語のTFが一定値を超えると関連性への寄与度が飽和する効果をモデル化しており、TFの線形的な増加がそのままスコアに反映されるのを防ぎます。
また、BM25は、文書の長さがスコアリングに与える影響を調整するためのパラメータ と、TFの飽和度を調整するパラメータ を持ちます。これらのパラメータを適切にチューニングすることで、特定のコーパスに対して最適な性能を発揮するように調整可能です。
短い文書では単語が少数であっても関連性が高く評価されがちですが、BM25の正規化項はこの影響を抑制し、文書の長さに関わらず公平な評価を可能にします。
このアルゴリズムは、ウェブ検索エンジンや学術論文検索システムなど、多岐にわたる分野でその有効性が実証されており、検索結果の品質向上に大きく貢献しています。
