特徴量とは、機械学習モデルが学習するために用いられる、データの本質的な情報を数値やカテゴリで表現したものです。これは、人間が物事を認識する際に、その形状や色、大きさといった属性を識別するのと同様の役割を果たします。
例えば、ある画像が犬か猫かを判別するモデルを構築する場合、画像のピクセル値そのものではなく、耳の形や毛並みのテクスチャ、目の位置といった要素を抽出し、これを特徴量としてモデルに入力します。
特徴量の選択と設計は、モデルの性能を大きく左右する極めて重要なプロセスであり、この作業は特徴量エンジニアリングと呼ばれます。優れた特徴量は、予測対象の目的変数との間に強い相関関係を持ち、データの冗長性を排除することで、学習効率を高め、過学習を防ぐことに寄与します。
近年では、深層学習の進展により、モデル自身がデータから自動的に階層的な特徴量を抽出する表現学習が主流となりつつあります。これにより、専門家による手作業の負担が軽減され、より複雑で大規模なデータからの学習が可能になりました。
しかしながら、どのような特徴量を学習するかという設計思想は、依然としてモデルの汎化能力を決定づける根幹をなす要素であり、AI開発における中心的な課題の一つであることに変わりはありません。
