AIの本と用語検索

ホテリング理論

ホテリング理論は、主に異常検知(外れ値検出)のために用いられる統計学的な手法です。これは、データセットの中に含まれる「正常」な状態から大きく逸脱したデータ、つまり異常値を客観的に見つけ出すことを目的としています。

この理論は、単一の変数だけでなく、複数の特徴量(多変量データ)を同時に考慮して異常度を評価できる点に大きな特徴があります。

ホテリング理論の根幹にある考え方は、正常なデータが特定の統計的分布、特に正規分布に従って生成されていると仮定することです。まず、大量の正常なデータを用いて、そのデータの平均的な振る舞いや、各変数が互いにどのように関連してばらついているか(共分散)を統計的に学習します。

この学習された正常なパターンの中心から、新たに観測されたデータがどれだけ統計的に離れているかを示す異常度を計算します。

この異常度を評価する指標は、多次元空間における距離のようなものとして考えることができます。

正常なデータ群の統計的な中心から遠く離れているデータ点ほど、大きな異常度、つまり高いスコアが与えられます。あらかじめ設定された閾値を超えたスコアを持つデータは、「正常な範囲から逸脱している」として異常であると判定されます。

この手法は、人の主観を排除し、客観的かつ定量的な指標に基づいて異常を検出できるため、製造業における機械の故障予兆検知、金融業界での不正取引の監視、ネットワークセキュリティにおける異常なアクセスの検出など、AIが活用される幅広い分野で基礎的な異常検知アルゴリズムとして利用されています。

ただし、理論の前提としてデータが正規分布に従う必要があるため、そうでないデータに対しては、事前のデータ変換などの適切な前処理が必要になります。