FireBench:エンタープライズおよびAPI駆動のLLMアプリケーションにおける指示追従の評価

arXiv cs.CL / 2026/3/6

Developer Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 企業やAPI連携の現場では、出力形式・内容制約・手順要件の厳守が重要だが、既存ベンチマークはチャット用途寄りの評価が中心である。
  • 著者らは実運用パターンに基づく指示追従ベンチマーク「FireBench」を提案し、情報抽出、カスタマーサポート、コーディングエージェントなど多様なアプリ領域をカバーする。
  • FireBenchは6つの中核能力次元で評価し、2,400超のサンプルで構成される。
  • 11種類のLLMを評価して、エンタープライズ想定のシナリオにおける指示追従の挙動と課題を示した。
  • FireBenchはfire-bench.comでオープンソース公開され、モデル適合性の判断、開発者の診断、コミュニティ貢献を促すことを目的とする。

計算機科学 > 計算と言語

arXiv:2603.04857 (cs)
[2026年3月5日に投稿]

題目:FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications という題目の論文を PDF で表示(Yunfan Zhang および他3名の著者)
PDFを見る HTML(実験的)
要旨:命令追従(instruction following)は、LLM を企業や API 駆動の環境に導入する際に重要であり、出力形式、コンテンツの制約、手順上の要件を厳密に守ることが、LLM を用いた信頼できるワークフローを実現するために不可欠です。しかし、既存の命令追従ベンチマークは主として、チャットアシスタントのニーズを反映する自然言語生成の制約を評価しています。そこでこのギャップを埋めるために、実世界の企業および API 利用パターンに基づく LLM 命令追従ベンチマークである FireBench を提案します。FireBench は、情報抽出、顧客サポート、コーディングエージェントを含む多様なアプリケーションにわたって6つの中核的能力次元を評価し、2,400件超のサンプルで構成されます。私たちは 11 の LLM を評価し、企業シナリオにおける命令追従行動についての重要な知見を示します。モデルの適合性を評価したいユーザーを支援し、性能診断におけるモデル開発者を支援し、コミュニティからの貢献を募るために、FireBench をオープンソースとしてこの http URLで公開します。
分野: 計算と言語(cs.CL); ソフトウェア工学(cs.SE)
引用方法: arXiv:2603.04857 [cs.CL]
  (または arXiv:2603.04857v1 [cs.CL])この版の場合)
  https://doi.org/10.48550/arXiv.2603.04857
詳しく学ぶためにフォーカス
DataCite 経由で発行された arXiv DOI

投稿履歴

発信元: Yunfan Zhang [メールを表示]
[v1] 2026年3月5日(木)06:25:50 UTC(7,871 KB)
全文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.CL
< 前   |   次 >
返却形式: {"translated": "翻訳されたHTML"}
Browse by: へ切り替え
BibTeX引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供データ:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers切り替え
Connected Papers (Connected Papersとは?)
Litmaps切り替え
Litmaps (Litmapsとは?)
scite.ai切り替え
scite Smart Citations (Smart Citationsとは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv切り替え
alphaXiv (alphaXivとは?)
コードへのリンク切り替え
論文向けCatalyzeXコードファインダー (CatalyzeXとは?)
DagsHub切り替え
GotitPub トグル
Huggingface トグル
コードへのリンク トグル
ScienceCast トグル
デモ

デモ

Replicate トグル
Spaces トグル
Hugging Face Spaces (Spacesとは何ですか?)
Spaces トグル
関連論文

レコメンダーおよび検索ツール

Influence Flowerへのリンク
COREレコメンダートグル
CORE Recommender (COREとは何ですか?)
arXivLabs について

arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするための仕組み(フレームワーク)です。

arXivLabs に取り組む個人および組織の双方が、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを支持しています。arXiv はこれらの価値観に取り組んでおり、それらを順守するパートナーとのみ協業します。

arXiv のコミュニティに価値をもたらすプロジェクトのアイデアはありますか? arXivLabs についてもっと知る