畳み込みニューラルネットワーク(CNN)は、画像認識や音声処理などに特化したディープラーニングの一種です。
人間の視覚システムを模倣した構造が特徴で、主に「畳み込み層」「プーリング層」「全結合層」の3つの要素から構成されています。
畳み込み層は、画像の特徴を抽出する役割を担います。画像の一部をフィルター(カーネル)でスキャンし、エッジや模様などの特徴を検出します。
このフィルターは、学習を通じて自動的に最適な重みが設定されるため、人間が手動で特徴を設計する必要がありません。この操作により、元の画像よりも小さい「特徴マップ」が生成されます。
次に、プーリング層は特徴マップを圧縮し、計算量を削減します。これにより位置の変化に対して頑健になり、より重要な情報が保持されます。最も一般的なのは「最大値プーリング」で、フィルター内の最大値だけを取り出す方法です。
最後に、全結合層が抽出された特徴をもとに分類を行います。畳み込み層とプーリング層で得られた情報を平坦化し、通常のニューラルネットワークと同じように、どのクラスに属するかを確率的に出力します。
このような階層的な構造により、CNNは単純な特徴から複雑な特徴へと段階的に学習を進めることができ、高い精度で画像や音声のパターンを認識することが可能になります。
