TREX: エージェント駆動のツリーベース探索によるLLMファインチューニングの自動化

arXiv cs.AI / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、要件分析から学習・評価までのLLMファインチューニングの全ライフサイクルを自動化するマルチエージェントシステム「TREX」を提案する。
  • TREXは「研究者」と「実行者」を連携させ、文献・データリサーチ、学習戦略の考案、データレシピの生成、モデル学習実験の実行を行う。
  • マルチラウンドの実験を探索木として表現することで、システムは探索経路を計画し、過去の結果を再利用し、反復的な試行からより高次の洞察を抽出できる。
  • 自動化された学習の品質を評価するため、著者らは、実運用のシナリオ由来のファインチューニング課題を10個含むFT-Benchを構築する。これにより、汎用的な能力向上とドメイン固有の性能向上の両方をカバーする。
  • 実験結果は、TREXの自動化されたワークフローによって、ベンチマークの対象タスクにおいてモデル性能を一貫して改善できることを示している。

要旨: 大規模言語モデル(LLM)は、AI研究エージェントが孤立した科学タスクを実行することを可能にしてきましたが、LLMの学習のような複雑で現実世界のワークフローを自動化することは依然として大きな課題です。本論文では、LLMの学習ライフサイクル全体を自動化するマルチエージェントシステムであるTREXを提案します。システムは2つの中核モジュール―研究者(Researcher)と実行者(Executor)―の間の協働をオーケストレーションすることで、要求分析、オープンドメインの文献およびデータ調査、学習戦略の策定、データレシピの準備、モデルの学習および評価をシームレスに実行します。マルチラウンドの実験プロセスは探索木としてモデル化されており、システムは探索経路を効率的に計画し、過去の結果を再利用し、反復的な試行から高レベルの洞察を蒸留できます。自動化されたLLM学習の能力を評価するために、我々は、基礎となるモデル能力の最適化からドメイン固有タスクでの性能向上までを含む、現実世界のシナリオから導出した10のタスクで構成されるベンチマークFT-Benchを構築します。実験結果は、TREXエージェントが対象タスクにおいてモデル性能を一貫して最適化することを示しています。