HYVE: 機械データ上でのLLMコンテキストエンジニアリングのためのハイブリッドビュー

arXiv cs.AI / 2026/4/8

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長くネストされ反復的な機械データペイロード(例:JSONまたはASTのような構造を持つログ/テレメトリ)を扱うことを目的とした、LLMコンテキストエンジニアリングのためのフレームワーク「HYVE」を提案する。
  • HYVEは、スキーマ情報を備えたリクエストスコープのデータストアを用い、反復的な構造を検出する前処理、ハイブリッドな列/行ビューの作成、そしてLLMに対して最も関連性の高い表現のみを公開する。
  • 後処理のオプションとして、直接の出力返却、データストアを用いた省略情報の復元、またはSQLを補強した意味的合成のための追加LLM呼び出し(上限付き)を提供する。
  • 知識QA、チャート生成、異常検知、ネットワークトラブルシューティングにわたる評価により、大きな効率改善(トークン削減率50〜90%)とタスク性能の向上が示され、チャート精度で最大132%の改善、レイテンシで最大83%の低減が達成されている。

Abstract

機械データは、現代の計算システムにおける可観測性と診断の中心です。ログ、メトリクス、テレメトリトレース、構成スナップショットなどに現れます。このデータを大規模言語モデル(LLM)に与えるとき、通常は自然言語と、JSONやPython/ASTリテラルのような構造化ペイロードが混在した形で到達します。しかし、LLMは、このような入力に対して脆弱さが残っています。特に、入力が長く、深くネストされ、反復的な構造が支配的である場合です。 本稿では、データベース管理の原則に着想を得た、巨大な機械データペイロードを含む入力に対するLLMコンテキスト・エンジニアリングのためのフレームワークHYVE(HYbrid ViEw)を提案します。HYVEは、スキーマ情報で拡張されたリクエストスコープのデータストアを中心として、モデル呼び出しを協調的な前処理と後処理で囲みます。前処理の間に、HYVEは生の入力内の反復構造を検出し、それをデータストアに具体化し、ハイブリッドなカラム指向ビューと行指向ビューへと変換し、LLMに対して最も関連性の高い表現のみを選択的に公開します。後処理の間に、HYVEはモデル出力をそのまま返すか、データストアを問い合わせて省略された情報を復元するか、SQLで拡張された意味合成のために制約付きの追加LLM呼び出しを行います。 本稿では、知識QA、チャート生成、不常検知、マルチステップのネットワークトラブルシューティングにまたがる多様な実世界ワークロードでHYVEを評価します。これらのベンチマーク全体で、HYVEは出力品質を維持または向上させつつ、トークン使用量を50〜90%削減します。構造化生成タスクでは、チャート生成の精度が最大132%向上し、レイテンシが最大83%低下します。全体としてHYVEは、巨大な機械データペイロードに支配されたプロンプトに対して、実質的に上限のないコンテキストウィンドウを近似する実用的な手段を提供します。