AI Navigate

GRAFITE:問題追跡と評価のための生成系回帰分析フレームワーク

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • GRAFITEは、ユーザーのフィードバックに基づいてモデルの課題を蓄積・管理するリポジトリを構築・維持し、継続的なテストを可能にする連続的な大規模言語モデル(LLM)評価プラットフォームです。
  • LLMを審判として活用するQAテストパイプラインを用い、複数モデルを並べて比較することで、リリース間の回帰を検出します。
  • 課題収集から自動QAテストまでのエンドツーエンドのワークフローを提供し、モデル性能のスケーラブルで時間を意識した評価を実現します。
  • IBM/grafiteでオープンソースとして公開されており、デモ動画を含む実用的なツールを提供して、LLMsを評価しベンチマーク汚染を緩和します。

要旨:大規模言語モデル(LLMs)は、リリース時点の人気トピックやベンチマークでの性能によって主に動機づけられます。しかし、時が経つにつれて、トレーニング中のベンチマークデータへの顕著な曝露により混入が生じます。これにより、テストが慎重に実施されない場合、モデルの性能が過大評価されるリスクがあります。この課題に対処するため、私たちは GRAFITE を、モデルの問題を維持・評価する包括的なシステムを通じた継続的な LLM 評価プラットフォームとして提案します。私たちのアプローチは、時間をかけてユーザーフィードバックに基づくモデル問題のリポジトリを構築し、LLMを判定者として用いる QA テストを通じてこれらの問題に対して LLM を評価するパイプラインを提供します。プラットフォームは複数のモデルを並べて比較することを可能にし、異なるリリース間での回帰検出を促進します。プラットフォームは https://github.com/IBM/grafite で入手可能です。デモ動画は www.youtube.com/watch?v=XFZyoleN56k で視聴できます。