クラスタリング｜AI用語集｜AI・人工知能の本を探すなら

クラスタリングは、教師なし学習の一種で、データセット内に存在する内在的な構造やパターンを発見するための機械学習アルゴリズムです。

この手法は、事前にラベル付けされていない多次元データを、その特徴量の類似性に基づいてグループ化（クラスタ）するプロセスを指します。

クラスタリングの目的は、個々のデータポイント間の距離や非類似度を評価し、似たデータが同じクラスタに属するように分割することです。

例えば、ユークリッド距離やコサイン類似度といった指標を用いて、データ間の空間的な近さを測定します。この距離計算に基づいて、データセット全体を複数の均質なサブセットに分割します。

代表的なアルゴリズムには、クラスタの重心を反復的に更新するk-means法や、データポイント間の距離を段階的に計算して階層的なツリー構造を構築する階層的クラスタリングなどがあります。

これらのアルゴリズムは、ハイパーパラメータ（例：k-meansにおけるクラスタ数k）の設定が結果に大きく影響するため、適切な選択が重要です。

クラスタリングは、市場セグメンテーション、画像認識、異常検知など、多様な応用分野で利用されます。

例えば、顧客の購買行動データを分析してセグメントに分類したり、ネットワークトラフィックのパターンからサイバー攻撃を検知したりする際に有効な手法です。これにより、データに隠された有益な情報を抽出し、より深い洞察を得ることが可能になります。