勾配消失問題とは、ディープラーニングモデルの学習プロセスにおいて勾配が極端に小さくなり、モデルのパラメータ(重み)がほとんど更新されなくなる現象です。これは、特に多くの層を持つ深いニューラルネットワークで発生しやすい問題です。
ニューラルネットワークの学習は、誤差逆伝播法によって行われます。この方法では、出力層から入力層に向かって誤差を伝播させ、各層の重みを更新します。
この伝播の過程で、活性化関数の導関数を連続的に掛け合わせるため、導関数の値が小さいと、掛け算を繰り返すたびに値はどんどん小さくなります。
その結果、入力層に近い初期の層では勾配がほぼゼロに近くなることで重みの更新が停止してしまい、モデルは学習が進まず性能が向上しなくなります。
特に、シグモイド関数やハイパボリックタンジェント関数など、出力が飽和しやすい活性化関数を使用した場合にこの問題は顕著になります。
