SSD (Single Shot MultiBox Detector)は、物体検出のための効率的なディープラーニングモデルです。これは、画像内の複数の物体の位置を特定し、それぞれの種類を分類するタスクを担います。
SSDの大きな特徴は、その名前が示すように「Single Shot」(一回)で物体検出のプロセスを完了する点にあります。
従来の多くの手法が、まず画像内の候補領域を提案し、次にそれらを分類するという二段階の手順を踏んでいたのに対し、SSDは単一の畳み込みニューラルネットワークを使って、これら二つの作業を同時に行います。このアプローチにより、SSDは非常に高速な検出を実現します。
具体的には、ネットワークの異なる層から得られる様々な解像度の特徴マップを利用して、画像全体を小さなグリッド(格子)に分割します。
各グリッドセルは、複数の異なるアスペクト比とスケールを持つ「デフォルトボックス」(またはアンカーボックス)と呼ばれる事前に定義された領域に基づき、その領域内に物体が存在するかどうかを予測します。
物体が存在する場合、その境界ボックスの位置を微調整し、同時にその物体のクラス(種類)を予測します。この多スケールでの予測と、多数のデフォルトボックスの活用が、様々な大きさの物体を効果的に検出できる鍵となっています。
特に、大きな特徴マップ(ネットワークの浅い層)は小さな物体の検出に優れ、小さな特徴マップ(ネットワークの深い層)は大きな物体の検出に適しています。このシンプルな構造と高い速度から、SSDはリアルタイム処理が求められるアプリケーションで広く利用されています。
