AIの本と用語検索

バーニーおじさんのルール

バーニーおじさんのルールは、機械学習モデル、特にニューラルネットワークの訓練に必要なデータ量に関する経験則の一つです。

このルールは、アメリカのスタンフォード大学教授であったバーナード・ウィドロー博士が1987年に提唱したもので、博士の愛称からその名がついています。

具体的には、学習モデルが持つ調整可能なパラメータ(重み)の数に対して、最低でもその10倍の量の訓練データが必要であるという指針を示しています。

この経験則が示唆しているのは、モデルの複雑さ、すなわちパラメータの数が増えるほど、そのモデルを適切に学習させるためにはより多くのデータが必要になるということです。

もしデータ量がこの目安よりも遥かに少ない場合、モデルは訓練データの特定の特徴に過剰に適合し、過学習(オーバーフィッティング)と呼ばれる状態に陥りやすくなります。過学習とは、訓練データに対しては高い精度を出すものの、未知の新しいデータに対する予測精度が極端に低下してしまう現象です。

「バーニーおじさんのルール」は、特に線形モデルや比較的単純なニューラルネットワークの設計・データ収集計画を立てる際の実用的な目安として利用されてきました。

しかし、深層学習(ディープラーニング)のようにパラメータ数が膨大になる複雑なモデルにおいては、このルールだけではデータ量の目安として不十分となる場合もあります。それでも、データが少なすぎる場合の過学習リスクを回避するための、簡潔で直感的な教訓として、今なおAI・機械学習の分野で語り継がれています。