AIの本と用語検索

スパースなデータ

スパースなデータとは、データの大部分がゼロや欠損値といった意味のない値で構成されており、情報を持つ要素がごく一部に限られているデータ集合のことを指します。

具体例として、大規模な推薦システムを考えると理解しやすいでしょう。例えば、あるオンラインストアの顧客が購入した商品の履歴をデータとして扱う場合、顧客全員と全商品の組み合わせで表される巨大な表を想像してみます。ほとんどの顧客は、数ある商品のごく一部しか購入しません。この表において、「顧客Aが商品Bを購入した」という情報は「1」や実際の購入回数として記録されますが、「顧客Aが商品Cを購入していない」という情報は「0」や欠損値として記録されます。結果として、この巨大な表のほとんどのマスは「0」で埋め尽くされ、実際に情報(購入履歴)を持つマスは全体のわずかな割合に過ぎません。このようなデータ構造がスパース(まばら)なデータです。

スパースなデータは、自然言語処理や画像認識など、AIのさまざまな分野で普遍的に発生します。自然言語処理では、文書を単語の出現頻度でベクトル化する際に、一つの文書で使われる単語は、辞書全体から見れば非常に限られているため、やはりスパースな表現になります。

スパースなデータをそのまま扱うと、計算資源の無駄や処理速度の低下を招くため、AIの分野ではスパース性を効率的に扱うための技術が重要になります。

具体的には、ゼロではない要素とその位置だけを記録するといった特殊なデータ構造(例えば、疎行列形式)が用いられます。これにより、メモリの使用量を抑え、計算を高速化することができます。

また、次元削減や特徴選択といった手法を用いて、まばらなデータの中から真に重要な情報のみを抽出・利用するアプローチも広く取られています。スパースなデータへの適切な対応は、大規模なAIモデルの効率的な学習と運用において欠かせない要素となっています。