計算機科学 > 計算と言語
arXiv:2603.04857 (cs)
[2026年3月5日に投稿]
題目:FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications
FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications という題目の論文を PDF で表示(Yunfan Zhang および他3名の著者)
PDFを見る
HTML(実験的)
要旨:命令追従(instruction following)は、LLM を企業や API 駆動の環境に導入する際に重要であり、出力形式、コンテンツの制約、手順上の要件を厳密に守ることが、LLM を用いた信頼できるワークフローを実現するために不可欠です。しかし、既存の命令追従ベンチマークは主として、チャットアシスタントのニーズを反映する自然言語生成の制約を評価しています。そこでこのギャップを埋めるために、実世界の企業および API 利用パターンに基づく LLM 命令追従ベンチマークである FireBench を提案します。FireBench は、情報抽出、顧客サポート、コーディングエージェントを含む多様なアプリケーションにわたって6つの中核的能力次元を評価し、2,400件超のサンプルで構成されます。私たちは 11 の LLM を評価し、企業シナリオにおける命令追従行動についての重要な知見を示します。モデルの適合性を評価したいユーザーを支援し、性能診断におけるモデル開発者を支援し、コミュニティからの貢献を募るために、FireBench をオープンソースとしてこの http URLで公開します。
| 分野: | 計算と言語(cs.CL); ソフトウェア工学(cs.SE) |
| 引用方法: | arXiv:2603.04857 [cs.CL] |
| (または arXiv:2603.04857v1 [cs.CL])この版の場合) | |
| https://doi.org/10.48550/arXiv.2603.04857
詳しく学ぶためにフォーカス
DataCite 経由で発行された arXiv DOI
|
現在の閲覧コンテキスト:
cs.CL
返却形式: {"translated": "翻訳されたHTML"}
参考文献 & 引用
BibTeX引用をエクスポート
読み込み中...
書誌ツール
コード、データ、メディア
デモ
関連論文
arXivLabs について
書誌および引用ツール
書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers切り替え
Connected Papers (Connected Papersとは?)
Litmaps切り替え
Litmaps (Litmapsとは?)
scite.ai切り替え
scite Smart Citations (Smart Citationsとは?)
この記事に関連付けられたコード、データ、メディア
alphaXiv切り替え
alphaXiv (alphaXivとは?)
コードへのリンク切り替え
論文向けCatalyzeXコードファインダー (CatalyzeXとは?)
DagsHub切り替え
DagsHub (DagsHubとは何ですか?)
GotitPub トグル
Gotit.pub (GotitPubとは何ですか?)
Huggingface トグル
Hugging Face (Huggingfaceとは何ですか?)
コードへのリンク トグル
Papers with Code (Papers with Codeとは何ですか?)
ScienceCast トグル
ScienceCast (ScienceCastとは何ですか?)
デモ
Replicate トグル
Replicate (Replicateとは何ですか?)
Spaces トグル
Hugging Face Spaces (Spacesとは何ですか?)
Spaces トグル
TXYZ.AI (TXYZ.AIとは何ですか?)
レコメンダーおよび検索ツール
Influence Flowerへのリンク
Influence Flower (Influence Flowerとは何ですか?)
COREレコメンダートグル
CORE Recommender (COREとは何ですか?)
arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト
arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするための仕組み(フレームワーク)です。
arXivLabs に取り組む個人および組織の双方が、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを支持しています。arXiv はこれらの価値観に取り組んでおり、それらを順守するパートナーとのみ協業します。
arXiv のコミュニティに価値をもたらすプロジェクトのアイデアはありますか? arXivLabs についてもっと知る。




