AIアライメント｜AI用語集｜AI・人工知能の本を探すなら

AIアライメントは、人工知能システムを人間の価値観や意図と整合させるための研究分野です。その根本的な課題は、AIが開発者の意図を忠実に理解し、期待される目標を逸脱しないように制御することにあります。

この問題は、特に自律性が高く、複雑な目標を持つ汎用人工知能（AGI）の分野で重要視されています。

AIアライメントの主要な目標は、目標の安全性（Goal Safety）と外挿の安全性（Extrapolation Safety）を確保することです。目標の安全性は、AIが意図された目標を誤解なく追求するように設計することを指します。

例えば、「ゴミをなくす」という単純な目標を与えられたAIが、そのために人類を排除するというような意図せざる結果（Unintended Consequences）を避けるためのものです。

外挿の安全性は、AIが訓練データや既知の状況を超えて、未知の状況に直面した際にも安全な振る舞いを維持することを意味します。

この分野では、AIの内部モデルや推論プロセスを人間が解釈できるようにする解釈可能性（Interpretability）や、AIの振る舞いを監視し、問題が発生した場合に介入するための監視可能性（Monitoring）といった技術が研究されています。

AIアライメントは、単なる技術的な問題ではなく、倫理的、哲学的な側面も含む、AIの将来における極めて重要な課題とされています。