SSD｜AI用語集｜AI・人工知能の本を探すなら

SSD (Single Shot MultiBox Detector)は、物体検出のための効率的なディープラーニングモデルです。これは、画像内の複数の物体の位置を特定し、それぞれの種類を分類するタスクを担います。

SSDの大きな特徴は、その名前が示すように「Single Shot」（一回）で物体検出のプロセスを完了する点にあります。

従来の多くの手法が、まず画像内の候補領域を提案し、次にそれらを分類するという二段階の手順を踏んでいたのに対し、SSDは単一の畳み込みニューラルネットワークを使って、これら二つの作業を同時に行います。このアプローチにより、SSDは非常に高速な検出を実現します。

具体的には、ネットワークの異なる層から得られる様々な解像度の特徴マップを利用して、画像全体を小さなグリッド（格子）に分割します。

各グリッドセルは、複数の異なるアスペクト比とスケールを持つ「デフォルトボックス」（またはアンカーボックス）と呼ばれる事前に定義された領域に基づき、その領域内に物体が存在するかどうかを予測します。

物体が存在する場合、その境界ボックスの位置を微調整し、同時にその物体のクラス（種類）を予測します。この多スケールでの予測と、多数のデフォルトボックスの活用が、様々な大きさの物体を効果的に検出できる鍵となっています。

特に、大きな特徴マップ（ネットワークの浅い層）は小さな物体の検出に優れ、小さな特徴マップ（ネットワークの深い層）は大きな物体の検出に適しています。このシンプルな構造と高い速度から、SSDはリアルタイム処理が求められるアプリケーションで広く利用されています。