AIの本と用語検索

Word2vec

Word2vecは、自然言語処理の分野で用いられる単語の分散表現(Word Embedding)を学習するための技術です。これは、単語の意味を高次元のベクトルとして捉えることを可能にします。

Word2vecの基本的な考え方は、「単語の意味は、その単語の周辺にある単語によって決定される」というもので、これを「分布仮説」と呼びます。

このモデルを学習させることで、単語の持つ意味的な情報や文法的な役割をそのベクトルに凝縮させることができます。具体的には、学習後のベクトル空間において、意味が近い単語(例えば「犬」と「猫」)は互いに近い位置に配置され、意味的に全く異なる単語は遠くに配置されます。

Word2vecには主に二つの学習アルゴリズムがあります。一つは、周辺の単語から中央の単語を予測する「Continuous Bag-of-Words (CBOW)」モデル。もう一つは、中央の単語から周辺の単語を予測する「Skip-gram」モデルです。Skip-gramの方が一般的に大規模なデータセットに対してより高い性能を発揮するとされています。

この技術の最大の特長は、ベクトル演算によって単語間の意味的な関係性を捉えられる点です。有名な例として、「キング - マン + ウーマン クイーン」のように、単語の意味を足し引きすることで、類推(アナロジー)を表現できる能力が挙げられます。

Word2vecによって生成された単語ベクトルは、機械翻訳、文書分類、情報検索など、多岐にわたる自然言語処理タスクの前処理として広く活用されています。

Word2vecは、ディープラーニング以前の自然言語処理における大きなブレークスルーとなり、その後のBERTやGPTなどのトランスフォーマーモデルの発展にも影響を与えた基礎的な技術の一つです。