ブートストラップサンプリング｜AI用語集｜AI・人工知能の本を探すなら

AI、特に統計的学習や機械学習の分野で用いられるブートストラップサンプリングとは、手元にある限られた標本データから、そのデータが持つ統計的な性質、例えば平均値のばらつきや予測モデルの信頼性などを推定するためのリサンプリング技術の一つです。

この手法の基本的な考え方は、元となるデータセットから復元抽出によって新しいデータセットを何度も作り出す点にあります。

復元抽出とは、一度選んだデータを元の集合に戻してから次のデータを選ぶ方法です。例えば、元のデータセットが $100$ 個のデータで構成されている場合、ブートストラップでは、この $100$ 個からランダムに重複を許して $100$ 個のデータを選び出し、新しい疑似的なデータセットを作成します。これをブートストラップ標本と呼び、このプロセスを数百回、あるいは数千回繰り返します。

こうして生成された多数のブートストラップ標本は、元のデータセットが由来する母集団のばらつきや傾向をシミュレーションしていると見なされます。

この複数の標本に対して、特定の統計量（例えば平均や中央値）を計算したり、機械学習モデルを学習させたりすることで、その統計量やモデルの安定性や精度を評価することができます。

ブートストラップサンプリングの大きな利点は、母集団についての複雑な仮定を置く必要がなく、手元のデータだけに基づいて分析ができる点です。

また、モデルの汎化性能を評価する際にも使われます。例えば、バギング（Bagging）と呼ばれるアンサンブル学習の手法では、複数のブートストラップ標本を使って個々の学習器を作成し、それらの予測を統合することで、より頑健で高精度な予測モデルを構築するためにこの技術が活用されています。

これにより、元のデータセットのノイズや偏りの影響を受けにくい、信頼性の高い結論や予測を得ることが可能になります。