TelcoAgent-Bench:通信(テレコム)AIエージェントのための多言語ベンチマーク

arXiv cs.CL / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • TelcoAgent-Bench と TelcoAgent-Metrics は、LLM エージェントを通信(テレコム)ネットワークに統合する際の課題(意図認識、ツール実行、解決生成)を多言語で評価するための通信特化ベンチマークの枠組みを提案しています。
  • このフレームワークは、意図認識の精度だけでなく、構造化されたトラブルシューティング手順とのプロセス整合性、ツールの順序実行、解決の正確さ、同一シナリオの変形に対する安定性を測定します。
  • 英語とアラビア語の両言語で動作する設計により、実運用を想定した多言語エージェント配備ニーズに対応します。
  • 実験では、指示チューニング済みの最新モデルがテレコム問題の理解は比較的できる一方で、必要な手順を一貫して遵守したり、シナリオ変形下で安定した挙動を維持したりするのが難しいことが示され、そのギャップは非制約・バイリンガル条件でより大きくなると報告されています。

要旨: 大規模言語モデル(LLM)エージェントを通信ネットワークに統合することは、意図認識、ツール実行、解決策生成に関連する新たな課題をもたらすとともに、さまざまな運用上の制約を考慮する必要があります。本論文では、多言語の通信向けLLMエージェントを評価するための、通信(Telecom)特化のベンチマーク基盤であるTelcoAgent-BenchおよびTelcoAgent-Metricsを提案します。提案する枠組みは、意味理解と、構造化されたトラブルシューティング手順とのプロセスレベルでの整合、さらに繰り返しのシナリオ変化に対する安定性を評価します。本研究の貢献は、意図認識、順序立てられたツール実行、解決の正確性、そしてシナリオ変化に対する安定性を評価するための、体系化された一連の指標を含みます。これにより、通信環境におけるLLMエージェントの信頼性と運用上の一貫性を定量化することを目的としています。提案枠組みは、運用ネットワーク環境における多言語エージェント展開の必要性に対応するため、英語とアラビア語の両方で動作するよう設計されています。実験結果は、近年の指示チューニング済みモデルが通信の問題を概ね妥当な形で理解できる一方で、同一シナリオの異なる変化にさらされたときに、必要とされるトラブルシューティング手順を一貫して追従することや、安定した振る舞いを維持することが通常は難しいことを示しています。この性能差は、制約のない設定およびバイリンガル設定で、より顕著になります。