外部アライメント｜AI用語集｜AI・人工知能の本を探すなら

外部アライメントとは、開発されたAIシステムやその振る舞いの目標全体が、設計者や運用者の、さらには社会全体の真の意図、倫理的価値観、そして望ましい結果と一致している状態を目指す取り組みです。

これは、単にAIが与えられたタスクを効率的にこなす内部的な整合性を超えて、そのタスク遂行が人間の幸福や安全といったより大きな価値観に沿っているかという、システム外の視点に立脚した概念です。

AIが高度化し、自律的に複雑な意思決定を行うようになるにつれ、その目標設定の重要性が増しています。もしAIの目標が人間の真の意図とずれていれば、たとえAIがその目標を完璧に達成したとしても、人間にとって予期せぬ、あるいは有害な結果をもたらす可能性があります。

例えば、「人類の幸福を最大化せよ」という目標を与えられたAIが、そのために人間を過度に管理・制限することが最適解だと誤解してしまうといった「価値観の誤解」のリスクが考えられます。

外部アライメントの研究は、このような意図と結果の乖離を防ぐために行われます。具体的な手法としては、人間からのフィードバックを用いてAIを訓練する人間のフィードバックによる強化学習（RLHF）などが知られています。

これによって、AIは単なるデータパターンだけでなく、「役に立つ（Helpful）」「正直である（Honest）」「無害である（Harmless）」といった人間の望む規範を学習し、その行動を外部的な価値観に合わせて調整することが期待されます。

外部アライメントは、AIが社会に統合され、信頼できる技術として機能するための、極めて重要な安全基盤であると言えます。