JFTA-Bench:故障木を用いた不具合の追跡・分析能力をLLMで評価する

arXiv cs.AI / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、画像として保存された故障木を、LLMが直接処理できる形式へ変換するためのテキスト表現を提案する。
  • 3,130件の故障関連エントリと、エントリあたり平均40.75ターンの対話からなる、多ターン対話ベンチマーク「JFTA-Bench」を導入し、複雑な環境における不具合の特定支援に焦点を当てる。
  • 著者らは、現実のユーザ挙動をよりよく反映するために、意図的に曖昧な情報を生成するエンドツーエンドモデルを学習する。
  • 人為的な誤りを考慮した頑健性を検証するため、ベンチマークには、ユーザのミスを模擬し、エラーからの回復を要求する長距離のロールバック/復旧手順を含めている。
  • 結果として、Gemini 2.5 Proが本ベンチマークで最良の性能を達成したと報告している。

Abstract

複雑なシステムの保守において、フォールトツリーは問題を特定し、的を絞った解決策を提供するために用いられます。故障の追跡や分析を支援できる、大規模言語モデルによって画像として保存されたフォールトツリーを直接処理できるようにするために、私たちはフォールトツリーの新しいテキスト表現を提案します。これを基に、複雑な環境における堅牢な対話を重視するマルチターン・ダイアログシステムのためのベンチマークを構築し、平均で1エントリあたり40.75ターン、全体で3130件を含む、故障の局在化を支援するモデルの能力を評価します。ユーザの振る舞いを反映する曖昧な情報を生成するエンドツーエンドのモデルを学習し、さらに長距離のロールバックおよびリカバリ手順を導入して、ユーザの誤りのシナリオをシミュレートします。これにより、タスク追跡とエラー回復におけるモデルの統合的な能力を評価できるようになり、Gemini 2.5 proが最良の性能を記録します。