AIの本と用語検索

オーバーラップ係数

オーバーラップ係数は、二つの集合やベクトル間の類似度を測る尺度の一つです。

特に、自然言語処理や情報検索の分野で頻繁に利用されます。この係数は、二つの集合の共通要素の数と、それぞれの集合のサイズの最小値との比率として定義されます。

具体的には、二つの集合AとBがある場合、オーバーラップ係数は で計算されます。ここで、 は集合AとBの共通要素の数、 は集合AとBの要素数の小さい方を示します。

この値は0から1の範囲をとり、1に近いほど二つの集合の共通部分が、より小さい方の集合に占める割合が大きいことを意味します。言い換えれば、一方の集合がもう一方の集合の部分集合である場合に、この係数は最大値である1をとります。

一方、ジャッカード係数やコサイン類似度といった他の類似度指標と比較すると、オーバーラップ係数には特有の性質があります。

ジャッカード係数が二つの集合の和集合を分母とするのに対し、オーバーラップ係数はより小さい方の集合を基準とするため、一方の集合がもう一方に完全に含まれている状況をより強く評価します。

この特性から、オーバーラップ係数は、文書の関連性分析や、クエリとドキュメントの適合度評価など、特定のドメインにおいて効果的な類似度指標として機能します。

しかし、集合のサイズに大きな差がある場合、小さな集合が大きな集合のわずかな部分しか共有していなくても高い値を示すことがあるため、その解釈には注意が必要です。