展開されたトリリンガル・公共空間エージェントのための、失敗中心の実行時評価

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、展開済みのトリリンガル公共空間エージェントを対象に、入力—出力のスコアだけでなく失敗に焦点を当てるべきだとする「PSA-Eval」という失敗中心の実行時評価フレームワークを提案している。
PSA-Evalは従来のQuestion→Answer→Scoreの流れを、Question→Batch→Run→Score→Failure Case→Repair→Regression Batchへ拡張し、失敗を追跡・レビュー・修復・回帰テスト可能にする。
トリリンガルの同等入力を制御されたプローブとして用い、実運用における言語間でのポリシー・ドリフトをグループ単位で検出する。
国際金融機関のロビーに導入されたトリリンガル・デジタル受付システムでのパイロットでは、平均スコア23.15/24を達成しつつも、クロス言語のスコア・ドリフトが観測され、最大9点に達した。
これらの結果は、失敗中心の実行時評価が、集計スコアでは見えにくい展開上の構造的な兆候を明らかにし得ることを示唆している。

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA

Tech.eu