IH-Challenge: 最先端のLLMsにおける指示階層を改善するためのトレーニングデータセット

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

IH-Challenge is a reinforcement learning training dataset designed to improve instruction hierarchy in frontier LLMs by prioritizing system, developer, user, and tool instructions during conflicts.
It targets defense against jailbreaks, system prompt extractions, and agentic prompt injections by providing a trust-ordered policy for resolving conflicting instructions.
Fine-tuning GPT-5-Mini on IH-Challenge with online adversarial example generation yields about a 10-point gain in IH robustness across 16 benchmarks (from 84.1% to 94.1%), reduces unsafe behavior from 6.6% to 0.7%, and saturates an internal static agentic prompt injection evaluation with minimal capability regression.
The authors release the IH-Challenge dataset on HuggingFace to enable ongoing research on robust instruction hierarchy for frontier LLMs.

本文: arXiv:2603.10521v1 アナウンス種別: 新規要旨: 指示階層（IH）は、対立下でのLLMsがシステム、開発者、ユーザー、およびツールの指示をどのように優先順位付けするかを定義し、指示の衝突を解決するための具体的で信頼順序付けられた方針を提供します。IHはジャイルブレイク、システムプロンプトの抽出、エージェント性プロンプト挿入に対抗する鍵です。しかし、堅牢なIH挙動を訓練することは難しいです：IHの失敗は指示遵守の失敗と混同されることがあり、対立はニュアンスがあり、モデルは過度に拒否するような近道を学ぶことがあります。我々はこれらの困難に対処するためにIH-Challengeという強化学習トレーニングデータセットを導入します。IH-Challenge上でオンラインの敵対的サンプル生成を用いたGPT-5-Miniのファインチューニングは、分布内・分布外・人間によるレッドチーミングの16ベンチマーク全体でIHの堅牢性を+10.0%向上させ（84.1%→94.1%）、不安全な挙動を6.6%から0.7%へ低減するとともに、一般的な安全性評価における有用性を向上させ、内部の静的なエージェント性プロンプト挿入評価を飽和させ、能力の回帰を最小限に抑えます。我々はIH-Challengeデータセット（https://huggingface.co/datasets/openai/ih-challenge）を公開し、堅牢な指示階層に関する将来の研究を支援します。

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

3行日記 AIマニュアルはバタフライ入門

note

IH-Challenge: 最先端のLLMsにおける指示階層を改善するためのトレーニングデータセット

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌