FireBench：エンタープライズおよびAPI駆動のLLMアプリケーションにおける指示追従の評価

arXiv cs.CL / 2026/3/6

Developer Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

企業やAPI連携の現場では、出力形式・内容制約・手順要件の厳守が重要だが、既存ベンチマークはチャット用途寄りの評価が中心である。
著者らは実運用パターンに基づく指示追従ベンチマーク「FireBench」を提案し、情報抽出、カスタマーサポート、コーディングエージェントなど多様なアプリ領域をカバーする。
FireBenchは6つの中核能力次元で評価し、2,400超のサンプルで構成される。
11種類のLLMを評価して、エンタープライズ想定のシナリオにおける指示追従の挙動と課題を示した。
FireBenchはfire-bench.comでオープンソース公開され、モデル適合性の判断、開発者の診断、コミュニティ貢献を促すことを目的とする。

計算機科学 > 計算と言語

arXiv:2603.04857 (cs)

[2026年3月5日に投稿]

題目:FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

著者:Yunfan Zhang, Yijie Bei, Jetashree Ravi, Pawel Garbacki

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications という題目の論文を PDF で表示（Yunfan Zhang および他3名の著者）

PDFを見る HTML（実験的）

要旨:命令追従（instruction following）は、LLM を企業や API 駆動の環境に導入する際に重要であり、出力形式、コンテンツの制約、手順上の要件を厳密に守ることが、LLM を用いた信頼できるワークフローを実現するために不可欠です。しかし、既存の命令追従ベンチマークは主として、チャットアシスタントのニーズを反映する自然言語生成の制約を評価しています。そこでこのギャップを埋めるために、実世界の企業および API 利用パターンに基づく LLM 命令追従ベンチマークである FireBench を提案します。FireBench は、情報抽出、顧客サポート、コーディングエージェントを含む多様なアプリケーションにわたって6つの中核的能力次元を評価し、2,400件超のサンプルで構成されます。私たちは 11 の LLM を評価し、企業シナリオにおける命令追従行動についての重要な知見を示します。モデルの適合性を評価したいユーザーを支援し、性能診断におけるモデル開発者を支援し、コミュニティからの貢献を募るために、FireBench をオープンソースとしてこの http URLで公開します。

分野:	計算と言語（cs.CL）; ソフトウェア工学（cs.SE）
引用方法:	arXiv:2603.04857 [cs.CL]
	(または arXiv:2603.04857v1 [cs.CL]）この版の場合）
	https://doi.org/10.48550/arXiv.2603.04857 詳しく学ぶためにフォーカス DataCite 経由で発行された arXiv DOI

投稿履歴

発信元: Yunfan Zhang [メールを表示]
[v1] 2026年3月5日（木）06:25:50 UTC（7,871 KB）

全文リンク:

論文へのアクセス:

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications という題目の論文を PDF で表示（Yunfan Zhang および他3名の著者）

PDFを見る
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.CL

< 前 | 次 >

新着 | 最近 | 2026-03

返却形式: {"translated": "翻訳されたHTML"}

Browse by: へ切り替え

cs
cs.SE

参考文献 & 引用

BibTeX引用をエクスポート読み込み中...

BibTeX形式の引用

提供データ：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え

書誌エクスプローラー (エクスプローラーとは？)

Connected Papers切り替え

Connected Papers (Connected Papersとは？)

Litmaps切り替え

Litmaps (Litmapsとは？)

scite.ai切り替え

scite Smart Citations (Smart Citationsとは？)

コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv切り替え

alphaXiv (alphaXivとは？)

コードへのリンク切り替え

論文向けCatalyzeXコードファインダー (CatalyzeXとは？)

DagsHub切り替え

DagsHub (DagsHubとは何ですか？)

GotitPub トグル

Gotit.pub (GotitPubとは何ですか？)

Huggingface トグル

Hugging Face (Huggingfaceとは何ですか？)

コードへのリンクトグル

Papers with Code (Papers with Codeとは何ですか？)

ScienceCast トグル

ScienceCast (ScienceCastとは何ですか？)

デモ

Replicate トグル

Replicate (Replicateとは何ですか？)

Spaces トグル

Hugging Face Spaces (Spacesとは何ですか？)

Spaces トグル

TXYZ.AI (TXYZ.AIとは何ですか？)

レコメンダーおよび検索ツール

Influence Flowerへのリンク

Influence Flower (Influence Flowerとは何ですか？)

COREレコメンダートグル

CORE Recommender (COREとは何ですか？)

著者
掲載先
所属機関
トピック

arXivLabs について

arXivLabs：コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするための仕組み（フレームワーク）です。

arXivLabs に取り組む個人および組織の双方が、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを支持しています。arXiv はこれらの価値観に取り組んでおり、それらを順守するパートナーとのみ協業します。

arXiv のコミュニティに価値をもたらすプロジェクトのアイデアはありますか？ arXivLabs についてもっと知る。

この論文のどの著者が支援（エンドース）していますか？ | MathJax を無効にする（MathJax とは何ですか？）

Black Hat USA

AI Business

AIエージェントをGoogle Apps Scriptで開発、幼稚園が挑む自動化

日経XTECH

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図