広告

エージェントトレース分析のためのビュー指向会話コンパイラ

arXiv cs.AI / 2026/4/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複雑でネストされたエージェント会話を、テキスト/JSON/YAML/grep 出力のようなプレーンまたは緩く構造化された形式でリフレクタに投入すると、エージェントトレース分析の品質がしばしば低下することを主張する。
  • VCC(View-oriented Conversation Compiler)を提案し、エージェントの JSONL ログを字句解析・構文解析して、損失のない完全トランスクリプトのビュー、ユーザが認識する UI ビュー、そして関連性述語に駆動される適応的な投影ビューを含む複数の構造化「ビュー」を出力する。
  • AppWorld におけるコンテキスト学習実験では、リフレクタの入力のみを生の JSONL から VCC によるコンパイル済みビューに切り替えることで、検証した全てのモデル構成で合格率が向上する。
  • このアプローチはリフレクタのトークン使用量も約 1/2〜1/3 に削減し、さらに学習されたメモリをより簡潔にする。これは、コンテキスト学習においてメッセージのフォーマットが重要な基盤インフラであることを示唆する。
  • 総じて、会話/トレースのメッセージ配置(レイアウト)とビューのコンパイルは、単なる工学的な詳細ではなく、下流の分析および学習性能に実質的な影響を与えることが結果から示される。

Abstract

エージェントのトレースは、コンテキスト学習やハーネス駆動のエージェント的認知の時代において、分析的価値がますます高まっている。しかし、従来の研究の多くは、会話フォーマットを些細な工学上の詳細として扱ってきた。現代のエージェント会話には、入れ子になったツール呼び出しとその結果、推論の連鎖(chain-of-thought)の推論ブロック、サブエージェントの呼び出し、コンテキストウィンドウの圧縮(コンパクション)境界、ハーネスによって注入されるシステム指示など、深く構造化された内容が含まれており、その複雑さは単純なユーザとアシスタントのやり取りをはるかに上回る。こうしたトレースをプレーンテキスト、JSON、YAML、あるいは grep によって反射器(リフレクタ)やその他の分析メカニズムに入力すると、分析品質が実質的に低下しうる。本論文では VCC(View-oriented Conversation Compiler)を提案する。これは(lex、parse、IR、lower、emit という)コンパイラであり、生のエージェント JSONL ログを、一連の構造化されたビューへと変換する。すなわち、完全ビュー(損失のない書き起こしであり、正準となる行番号座標系として機能する)、ユーザインタフェースビュー(ユーザが実際に認識したとおりに相互作用を再構成する)、そして適応ビュー(関連性述語によって制御される、構造保持型の射影)である。AppWorld におけるコンテキスト学習の実験では、反射器の入力フォーマットのみを、生の JSONL から VCC によってコンパイルされたビューへ置き換えると、テストした3つのモデル設定すべてにおいて合格率が向上する。また、反射器のトークン消費は半分から3分の2へと削減でき、さらにより簡潔な学習済みメモリが得られる。これらの結果は、メッセージフォーマットがコンテキスト学習のためのインフラとして機能するのであって、偶発的な実装上の選択にすぎないわけではないことを示唆している。

広告