学習率は、勾配降下法を始めとする最適化アルゴリズムにおいて、モデルの重みパラメータを更新する際の歩幅を決定する重要なハイパーパラメータです。学習率は、損失関数の勾配が示す方向へ、どれだけ大胆に、あるいは慎重にモデルのパラメータを更新するかを制御します。
学習率が高すぎる場合、パラメータの更新幅が過大となり、損失関数の最小値を見つけられずに発散したり、局所的な最小値を飛び越えてしまい、最適な解に収束しない不安定な学習に陥る可能性があります。
逆に、学習率が低すぎる場合、パラメータの更新が微小になりすぎ、損失関数の最小値に到達するまでに膨大な時間を要し、学習が極めて遅くなります。また、局所的な最小値にトラップされ、より良い大域的な最小値に到達できない可能性も高まります。
最適な学習率は、損失曲面の形状や、使用するデータセットの特性に大きく依存します。
そのため、一般的に学習の進行に合わせて学習率を動的に調整する「学習率スケジューリング」や、勾配の二次情報を用いて最適な歩幅を推定するAdamやRMSpropといった適応的学習率最適化アルゴリズムが広く用いられています。これらの手法は、学習プロセスの効率と安定性を向上させるために不可欠な要素です。
