状態遷移モデルとは、システムやエージェントがある状態から別の状態へと変化していく様子を、時間の経過や特定の入力・行動に基づいて記述するための枠組みです。これは、AIが環境内でどのように振る舞い、問題を解決し、意思決定を行うかを理解するための基本的な概念となります。
このモデルでは、まずシステムが取りうるすべて可能な状況を「状態」として定義します。例えば、ロボットのいる場所、ゲームAIの現在の局面、あるいは自然言語処理における文の解析段階などが状態にあたります。
次に、これらの状態間を移動させる「遷移」を定義します。この遷移は、エージェントが行う行動や、環境から受け取る入力、あるいは時間の経過など、特定の条件が満たされたときに発生します。例えば、ロボットが「前進する」という行動を取れば、その位置という状態が「地点」から「地点」に遷移します。
さらに、遷移にはしばしば「確率」が関連付けられます。特に強化学習のような分野では、ある行動を取ったときに、意図した通りの状態に遷移するとは限らず、不確実性を伴います。
この不確実性をモデル化するために、ある状態と行動の組み合わせに対して、次に到達する状態の分布が定義されます。この確率的な性質を持つ状態遷移モデルは、「マルコフ決定過程()」として広く知られており、多くのの計画や学習の基礎となっています。
