要旨: 有害なコンテンツを多回(マルチターン)対話で検出するには、個別の発話だけでなく、会話全体の文脈に基づく推論が必要です。しかし、既存の多くの手法は、外部の規範的原則に対する明示的な根拠付けを行わず、主にモデル内部のパラメトリックな知識に依存しています。その結果、社会的にニュアンスのある文脈において判断が一貫しない、解釈可能性が低い、ターン間で推論が冗長になる、といった問題が生じます。これに対処するために、我々はRoTRAGを提案します。RoTRAGは、Rules of Thumb(RoTs)と呼ばれる、簡潔に人が書いた道徳的規範を取り入れる検索拡張フレームワークであり、LLMに基づく有害性評価へと組み込みます。各ターンにおいて、RoTRAGは外部コーパスから関連するRoTsを検索し、それらをターンレベルの推論および最終的な深刻度分類のための明示的な規範的証拠として用います。効率を高めるためにさらに、新しいターンが検索に基づく根拠付け推論を必要とするのか、それとも既存の文脈を再利用できるのかを判断する軽量な二値ルーティング分類器も導入します。ProsocialDialogおよびSafety Reasoning Multi Turn Dialogueに関する実験の結果、RoTRAGは、競合するベースラインに比べて、有害分類と深刻度推定の両方を一貫して改善することが示されました。ベンチマークデータセット全体でF1における平均相対向上率は約40%であり、分布誤差における平均相対低減率は8.4%です。さらに、性能を損なうことなく冗長な計算を削減できています。
RoTRAG:検索拡張生成による会話の危害検出のための経験則推論
arXiv cs.CL / 2026/4/21
📰 ニュースModels & Research
要点
- RoTRAGは、多ターン対話における危害(有害)コンテンツ検出のための検索拡張フレームワークで、単一発話ではなく会話全体の文脈に基づいて推論します。
- それは外部コーパスから関連する人間が書いた簡潔な「経験則(Rules of Thumb:RoTs)」を検索し、LLMベースの危害評価をその規範的根拠で明示的に裏付けることで、判断の一貫性と解釈可能性を高めます。
- RoTRAGは、検索された規範的エビデンスを用いて各ターンで推論し、最終的な重大度(severity)分類を行い、パラメトリック知識のみに依存することを減らします。
- コスト効率のために、軽量な二値ルーティング分類器を導入し、新しいターンが検索に基づく根拠付き推論を必要とするか、既存の文脈を再利用できるかを判断します。
- ProsocialDialogとSafety Reasoning Multi Turn Dialogueでの実験では、ベンチマークで平均相対F1が約40%向上し、分布誤差が平均相対8.4%減少したうえで、冗長な計算を抑えつつ性能を維持したことが示されています。
関連記事

Agent Package Manager(APM):再現可能なAIエージェントのためのDevOpsガイド
Dev.to

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと
Dev.to

ARPAのSkillware & Rooms(AI/ML/Python)でオープンソースの貢献者を募集
Dev.to
本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測[D]
Reddit r/MachineLearning
AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった
Reddit r/artificial