AI Navigate

IH-Challenge: 最先端のLLMsにおける指示階層を改善するためのトレーニングデータセット

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • IH-Challenge is a reinforcement learning training dataset designed to improve instruction hierarchy in frontier LLMs by prioritizing system, developer, user, and tool instructions during conflicts.
  • It targets defense against jailbreaks, system prompt extractions, and agentic prompt injections by providing a trust-ordered policy for resolving conflicting instructions.
  • Fine-tuning GPT-5-Mini on IH-Challenge with online adversarial example generation yields about a 10-point gain in IH robustness across 16 benchmarks (from 84.1% to 94.1%), reduces unsafe behavior from 6.6% to 0.7%, and saturates an internal static agentic prompt injection evaluation with minimal capability regression.
  • The authors release the IH-Challenge dataset on HuggingFace to enable ongoing research on robust instruction hierarchy for frontier LLMs.
本文: arXiv:2603.10521v1 アナウンス種別: 新規 要旨: 指示階層(IH)は、対立下でのLLMsがシステム、開発者、ユーザー、およびツールの指示をどのように優先順位付けするかを定義し、指示の衝突を解決するための具体的で信頼順序付けられた方針を提供します。IHはジャイルブレイク、システムプロンプトの抽出、エージェント性プロンプト挿入に対抗する鍵です。しかし、堅牢なIH挙動を訓練することは難しいです:IHの失敗は指示遵守の失敗と混同されることがあり、対立はニュアンスがあり、モデルは過度に拒否するような近道を学ぶことがあります。我々はこれらの困難に対処するためにIH-Challengeという強化学習トレーニングデータセットを導入します。IH-Challenge上でオンラインの敵対的サンプル生成を用いたGPT-5-Miniのファインチューニングは、分布内・分布外・人間によるレッドチーミングの16ベンチマーク全体でIHの堅牢性を+10.0%向上させ(84.1%→94.1%)、不安全な挙動を6.6%から0.7%へ低減するとともに、一般的な安全性評価における有用性を向上させ、内部の静的なエージェント性プロンプト挿入評価を飽和させ、能力の回帰を最小限に抑えます。我々はIH-Challengeデータセット(https://huggingface.co/datasets/openai/ih-challenge)を公開し、堅牢な指示階層に関する将来の研究を支援します。