ORBIT: 費用を抑えた検索エージェント向けの、スケーラブルかつ検証可能なデータ生成

arXiv cs.CL / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、コストの高い人手によるアノテーションや有料APIへの依存を減らすことを目的とした、推論負荷の高い検索エージェント用クエリ20K件からなる合成学習データセット ORBITを提案する。短く、検証可能な回答を備える。
ORBITは、モジュール化された4段階のパイプライン（シード作成、QAペア生成、自己検証および外部Webベース検証を含む2つの検証段階）によって生成される。
データセットは15のドメインをカバーし、各学習例には4〜5ステップの推論が含まれる。外部検証では、正しさを確認するために全文Web検索が必要となる。
実験の結果、GRPOを用いてORBITでQwen3-4Bを学習させると、検索エージェントとしてサブ4B級LLMに対して強い性能が得られることが示される。評価はWikipediaの質問応答タスクで行われる。
著者らはフレームワークのコードとデータセットを公開し、再現性と、限られた予算で検索エージェントの学習データを構築するための実用的な導入可能性を強調している。

要旨: 言語モデル（LM）とWeb検索を統合する検索エージェントは、複雑なユーザークエリに答えるうえで重要になりつつあります。多段の検索と推論を含む深層リサーチ課題のための学習データセットを構築することは、人手による高価な注釈、または面倒な前提条件のために依然として困難です。本研究では、有料のAPIサービスに依存せず、質素（frugal）な枠組みによって生成した、短く検証可能な回答を伴う推論集約的な20K件のクエリからなる学習データセットORBITを導入します。このモジュール式の枠組みは4つの段階から成ります。シード作成、質問-回答ペアの生成、そして2段階の検証：自己検証（self）と外部検証（external）です。ORBITは15のドメインにまたがり、各学習ペアは4〜5ステップの推論を必要とし、外部検索による検証はWeb全体から実施する必要があります。GRPOを用いてORBIT上でベースモデルとしてQwen3-4Bを学習し、Wikipediaの質問応答タスクで評価します。大規模な実験結果により、ORBIT-4Bはサブ4BのLLMの中で検索エージェントとして強い性能を達成し、合成データセットの有用性を示します。私たちの枠組み、コード、データセットはオープンソース化されており、公開されています。