Agentic Jackal:テキストからJQLへのライブ実行と意味的価値のグラウンディング

arXiv cs.CL / 2026/4/13

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、自然言語をJira Query Language(JQL)へ変換するための、初の実行ベースのベンチマークであるJackalを提案する。ライブのJiraインスタンスに基づき、200,000件超の課題を持つ環境で検証済みのNL–JQLペア100,000件を含む。
  • 単発(single-pass)のLLMは、インスタンス固有のカテゴリ値、曖昧なフィールド参照、そしてブール述語の生成において苦戦すると主張している。これは、生成したクエリをライブデータに対して検証できないためである。
  • これに対処するため、著者らは、Jira MCPサーバを用いたライブ実行と、埋め込みに基づく類似度によってカテゴリ値を意味的に取得するためのJiraAnchorを組み合わせる、ツール拡張型エージェントであるAgentic Jackalを提案する。
  • 9つのフロンティアLLMにわたって、単発モデルは短いクエリで平均43.4%の実行精度を達成し、エージェント型アプローチは9モデル中7モデルを改善する。最も難しい言語変種では相対的な改善が9.0%となる。
  • アブレーションにより、JiraAnchorの寄与が大きいことが示される(カテゴリ値の精度が48.7%から71.7%に向上)。また本研究では、支配的な失敗要因が、値の解決だけではなく、課題タイプやテキスト・フィールド選択といった意味的な曖昧さであることが分かる。

概要: 自然言語をJiraクエリ言語(JQL)へ翻訳するには、曖昧なフィールド参照、インスタンス固有のカテゴリ値、複雑なブール述語を解決する必要があります。単一パスのLLMでは、あるJiraインスタンスに実際に存在するカテゴリ値(例:コンポーネント名や修正バージョン)を見つけることもできませんし、生成したクエリをライブなデータソースに対して検証することもできないため、言い換えや曖昧な依頼に対する正確性が制限されます。自然言語からJQLへの対応付けを、実行ベースで評価する公開ベンチマークは存在しません。私たちはJackalを導入します。Jackalは、200,000件以上の課題を持つライブJiraインスタンス上で、検証済みのNL-JQLペア10万件からなる、大規模な実行ベースのテキストからJQLへのベンチマークとしては初めてのものです。Jackalに基づいてベースラインを確立するために、Agentic Jackalを提案します。Agentic Jackalは、LLMに対し、Jira MCPサーバーとJiraAnchorを介してライブなクエリ実行を可能にするツール拡張型エージェントです。JiraAnchorは、埋め込みベースの類似度探索によって、カテゴリ値に対する自然言語での言及を解決するセマンティック検索ツールです。評価した9つのフロンティアLLMのうち、単一パスモデルは短い自然言語クエリにおける実行精度が平均43.4%にとどまり、テキストからJQLへの変換が未解決の課題であることを示しています。エージェント型の手法は9つのうち7つのモデルで改善し、言語的に最も難しいバリアントでは相対的な改善が9.0%でした。JiraAnchorを切り分ける制御されたアブレーションでは、カテゴリ値の精度が48.7%から71.7%に上昇し、コンポーネントフィールドの精度は16.9%から66.2%へと大きく跳ね上がりました。分析の結果、値の解決の誤りよりも、課題タイプの曖昧性の解消やテキストフィールドの選択といった固有のセマンティックな曖昧さが、支配的な失敗モードであることが明らかになりました。これにより、今後の研究に向けた具体的な方向性を示します。再現性を支えるために、ベンチマーク、すべてのエージェントのトランスクリプト、評価コードを公開します。