敵対的プロンプト｜AI用語集｜AI・人工知能の本を探すなら

AIシステム、特に大規模言語モデル（LLM）にとって、敵対的プロンプトは、その開発者が意図しない挙動を引き出すために設計された、特殊な入力のことを指します。

これはサイバーセキュリティにおけるエクスプロイトに似ており、AIの脆弱性を突くことで、安全性プロトコルや倫理的ガードレールを回避させたり、機密情報を漏洩させたり、有害なコンテンツを生成させたりする目的で用いられます。

この種のプロンプトは、単に禁止されている質問をするだけでなく、プロンプトインジェクションやプロンプトリークといった様々な手法を含みます。例えば、AIに特定の役割を演じさせたり、架空のシナリオに誘導したりすることで、本来であれば拒否するはずの応答を引き出す試みがあります。

これらの攻撃に対抗するため、AI開発者はプロンプト防御やファインチューニング、入力のサニタイズ（浄化）といったセキュリティ対策を講じています。しかし、敵対的プロンプトは常に進化しており、AIの堅牢性と安全性を確保することは、AI研究における継続的な課題となっています。

これは、まるでいたちごっこのような関係であり、AIの能力が向上するにつれて、より洗練された攻撃手法が登場すると考えられています。したがって、敵対的プロンプトへの理解は、AIの安全な利用と発展のために不可欠です。