Abstract
複雑なシステムの保守において、フォールトツリーは問題を特定し、的を絞った解決策を提供するために用いられます。故障の追跡や分析を支援できる、大規模言語モデルによって画像として保存されたフォールトツリーを直接処理できるようにするために、私たちはフォールトツリーの新しいテキスト表現を提案します。これを基に、複雑な環境における堅牢な対話を重視するマルチターン・ダイアログシステムのためのベンチマークを構築し、平均で1エントリあたり40.75ターン、全体で3130件を含む、故障の局在化を支援するモデルの能力を評価します。ユーザの振る舞いを反映する曖昧な情報を生成するエンドツーエンドのモデルを学習し、さらに長距離のロールバックおよびリカバリ手順を導入して、ユーザの誤りのシナリオをシミュレートします。これにより、タスク追跡とエラー回復におけるモデルの統合的な能力を評価できるようになり、Gemini 2.5 proが最良の性能を記録します。



