要約: 大規模言語モデル(LLMs)は、意思決定支援、科学的問題解決、およびマルチエージェントの協調システムにおいて、ますます自律的な推論エージェントとして機能しています。しかし、重大な影響を与えるアプリケーションでLLMエージェントを展開するには、それらの推論が意味的に同値な入力変化に対しても安定していることを保証する必要があり、これを意味的不変性と呼びます。標準的なベンチマーク評価は、固定された定型的な問題定式化に対する精度を評価しますが、この重要な信頼性の次元を捉えきれていません。これらの不足を補うため、本論文では、LLM推論エージェントの頑健性を体系的に評価するためのメタモルフィック検査フレームワークを提示します。8つの意味保持変換(同一性、パラフレーズ、事実の再配置、展開、縮約、学術的文脈、ビジネス文脈、対照的な定式化)を適用し、4つの異なるアーキテクチャ系を横断する7つの基盤モデルにわたって適用します:Hermes(70B, 405B)、Qwen3(30B-A3B、235B-A22B)、DeepSeek-R1、および gpt-oss(20B, 120B)を含む。私たちの評価は、8つの科学分野にまたがる19の多段階推論問題を対象としています。結果は、モデルの規模が頑健性を予測しないことを示しています。より小型の Qwen3-30B-A3B が最高の安定性を達成しました(79.6% の不変応答、意味的類似性 0.91)、一方で大きなモデルは脆弱性を示します。
返却形式: {"translated": "翻訳されたHTML"}




