AIの本と用語検索

KLダイバージェンス

KLダイバージェンス(Kullback-Leibler Divergence)は、ある確率分布が別の確率分布とどれだけ異なるかを測る尺度です。これは距離とは異なり、対称性を持たないのが特徴です。つまり、分布Pから分布QへのKLダイバージェンスと、分布Qから分布Pへのそれは一般に等しくありません。

この概念は情報理論に由来し、Pを真の分布、Qをその近似と見なすことが多いです。KLダイバージェンスは、QがPを近似する際に失われる情報の期待値を表すものとして解釈できます。

機械学習、特に生成モデルや変分ベイズ法において重要な役割を果たします。例えば、変分オートエンコーダ(VAE)では、潜在変数の分布が標準正規分布に近づくように正則化項として用いられます。これにより、モデルがより安定した潜在空間を学習できるようになります。

また、ディープラーニングにおける分布間の類似性を測定し、モデルの出力分布とターゲット分布を比較する損失関数の一部としても利用されます。

KLダイバージェンスがゼロになるのは、二つの分布が完全に一致する場合に限られます。値が大きければ大きいほど、二つの分布の乖離が大きいことを意味します。この非負性も重要な特性の一つです。

KLダイバージェンスは、モデルの複雑性を抑制しつつ、データの本質的な特徴を捉えるためのバランスを取る上で不可欠なツールと言えます。