AIの本と用語検索

TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)は、テキストマイニングや情報検索の分野で用いられる、単語の重要度を評価するための統計的な手法です。

これは、特定の文書内での単語の出現頻度(TF)と、その単語が全文書集合(コーパス)の中でどれだけ希少であるか(IDF)という二つの要素を組み合わせて、単語の重要度を数値化します。

まず、TFは、ある単語が特定の文書にどれだけ頻繁に出現するかを示します。単純にカウントするだけでなく、文書の長さに応じて正規化されることが一般的です。

次に、IDFは、ある単語が多くの文書に出現するほど値が低くなり、少数の文書にしか出現しないほど値が高くなるように設計されています。これは、例えば「です」「ます」のような一般的な単語は多くの文書に現れるため、情報的な価値が低いと見なされる一方、特定のトピックに固有の専門用語は少数の文書にしか現れないため、より重要であると見なされるという直感に基づいています。

TFとIDFは乗算され、最終的なTF-IDF値が算出されます。この値が高い単語は、その文書の主題を特徴づける重要なキーワードである可能性が高いと判断されます。

この手法は、文書分類やクラスタリング、あるいは検索エンジンのランキングなど、多くのAIアプリケーションで広く利用されています。これにより、コンピュータは大量のテキストデータの中から、人間が認識するような意味的な関連性を見つけ出すことができるのです。