ARFBench：ソフトウェアインシデント対応における時系列質問応答能力のベンチマーク

arXiv cs.LG / 2026/4/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この論文では、ソフトウェアインシデントデータに含まれる異常を検出・推論することに焦点を当てた、時系列質問応答（TSQA）の新しいベンチマーク「ARFBench」が提案されています。
ARFBenchは、750問、142の時系列、計5.38Mデータポイントを含み、Datadogの内部テレメトリから取得した63件の本番インシデントに基づいています。
LLM/VLMや時系列の基盤モデルを対象にした評価の結果、最先端のVLMが既存ベースラインを大きく上回り、首位モデルはGPT-5で精度62.7%、F1 51.9%を達成しました。
著者らは、特化型のTSFM+VLMハイブリッド手法も提示し、少量の合成データと実データで事前学習済みVLM側を追加事後学習（post-train）することで、最先端モデルに匹敵する全体性能を示しています。
さらに、モデルと人間のドメイン専門家が補完的な強みを持つことを確認し、オラクル選択（モデル/専門家の回答の最良選択）を定義することで、F1 82.8%、精度87.2%を実現し、将来のTSQAモデルの新たな「超人的フロンティア」を示しました。

概要: 時系列質問応答（TSQA）とは、時系列の特性について推論し、理解するために自然言語の質問を行うものであり、基盤モデルの有望だが十分に調査されていない能力です。本研究では、ソフトウェアインシデントデータに広く見られる時系列異常に対して、マルチモーダル基盤モデル（FM）の理解を評価するTSQAベンチマークであるARFBenchを提示します。ARFBenchは、142本の時系列にまたがる750の質問と、Datadogの内部テレメトリからのみ取得された63件の本番インシデントに由来する538万データ点で構成されています。私たちは主要な独自およびオープンソースのLLM、VLM、ならびに時系列FMを評価し、その結果、最先端のVLMが既存のベースラインよりも大幅に優れていることを観察します。最も優れたモデル（GPT-5）は、62.7%の精度と51.9%のF1を達成します。次に、特化したマルチモーダル手法の有望性を示します。私たちは、新規のTSFM + VLMハイブリッド試作を開発し、少量の合成データと実データに対して追加学習（post-train）することで、最先端モデルと同等の総合F1および精度を実現します。最後に、モデルと人間のドメイン専門家が補完的な強みを持つことを見出します。私たちは、モデル・専門家オラクル（model-expert oracle）と、モデルの回答と専門家の回答のうち2つから最良を選ぶオラクル（best-of-2 oracle selector）を定義し、82.8%のF1と87.2%の精度を得ることで、今後のTSQAモデルに向けた新しい超人水準の最前線（superhuman frontier）を確立します。ベンチマークは https://huggingface.co/datasets/Datadog/ARFBench で利用可能です。