DeEscalWild:SLMによる自動ディエスカレーション訓練のための実世界ベンチマーク

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、オープンソース動画から抽出した警察—市民の相互作用に焦点を当てた、自動ディエスカレーション訓練のための実世界ベンチマークデータセット「DeEscalWild」を紹介する。
  • 人手による検証(human-in-the-loop)と、LLMをジャッジとして用いたフィルタリングを組み合わせたハイブリッド・パイプラインにより、シナリオ作成を5,000件の生データ入力から1,500件の高忠実度ケースへとスケールダウンする。
  • 公開されるコーパスには285,887の対話ターン(約4.7M tokens)が含まれており、ディエスカレーション対話生成のための小型言語モデルのファインチューニングおよび評価を可能にする。
  • 実験の結果、ファインチューニングしたSLMは、複数のNLP指標(ROUGE-L、BLEU-4、METEOR、BERTScore)においてベースモデルを大幅に上回る。
  • ドメイン最適化されたQwen 2.5 3B-Instructモデルは、汎用のGemini 2.5 Flashベースラインを上回り、低遅延でエッジ展開可能な実用的な訓練システムが成立しうることを示唆している。

アブストラクト: 効果的なエスカレーション解除は法執行の安全性とコミュニティの信頼にとって極めて重要である一方、従来の訓練手法はスケーラビリティと現実性に欠けている。大規模言語モデル(LLM)は動的で、オープンエンドなシミュレーションを可能にするが、その計算コストの大きさゆえに、没入型の実地訓練に必要とされる軽量で携帯可能なハードウェアへの展開には現実的ではない。小規模言語モデル(SLM)は実時間の代替として有望だが、高品質でドメイン固有の訓練データが決定的に不足しているという問題がある。このギャップを埋めるために、我々はDeEscalWildという新しいベンチマークデータセットを提示する。これは、オープンソースの動画リポジトリから抽出した、実環境(in-the-wild)の警察と市民の相互作用を複数段階のパイプラインでキュレーションしたものである。5,000件の生データ入力から開始し、人手による検証(human-in-the-loop)とLLM-as-a-Judgeによる評価を組み合わせた厳密なハイブリッドフィルタリング手法を用いて、1,500件の高忠実度なシナリオへと蒸留した。得られたコーパスは285,887の対話ターンからなり、合計で約4.7百万トークンに相当する。大規模な実験の結果、このデータで微調整したSLMは、ROUGE-L、BLEU-4、METEOR、BERTScoreの各指標において、そのベースとなるモデルに対して大幅に上回ることが示された。特に、微調整したQwen 2.5(3B-Instruct)は汎用のGemini 2.5 Flashモデルを上回り、ドメインに最適化されたSLMが計算コストの一部でより高い性能を達成できることを実証している。本研究は、エッジ上で利用可能で、低遅延かつプライバシーを保護する警官の訓練システムのための基盤となるインフラを確立するものである。