欠損値｜AI用語集｜AI・人工知能の本を探すなら

欠損値は、データセット内の特定の観測値について、対応する属性の値が存在しない状況を指します。これは、データ収集プロセスでの記録漏れ、センサーの故障、あるいはユーザーが意図的に回答しなかったなど、多様な原因によって生じます。

欠損値の存在は、そのままでは多くの機械学習アルゴリズムの計算処理を妨げ、モデルのバイアスや分散を増大させ、結果として予測精度の低下を招くため、前処理段階で適切に対処することが不可欠です。

欠損値のパターンは、ランダムに発生しているとされるMCAR (Missing Completely At Random)、他の観測されているデータには依存するが、それ自体が欠損している値には依存しないMAR (Missing At Random)、そして欠損の発生がその属性の本来の値に依存するMNAR (Missing Not At Random) の三つの主要なメカニズムに分類されます。これらのメカニズムの特定は、適切な補完 (Imputation) 手法を選択する上で重要です。

一般的な欠損値の処理手法としては、欠損値を含むサンプルを単純にデータセットから除去する削除法がありますが、これはデータ量の大幅な減少や選択バイアスを引き起こすリスクを伴います。

より洗練された手法として、欠損値をデータセットの平均値、中央値、または最頻値で置き換える単一代入や、回帰モデルなどを用いて欠損値を推定する多重代入が用いられます。

また、決定木のような特定のモデルは、欠損値自体を情報として活用しながら学習を進めることが可能です。適切な欠損値処理は、堅牢かつ高精度なモデル構築のための基盤となります。