エージェント型AIにおける意味的不変性

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、意味的変化の下でLLM推論エージェントの堅牢性を体系的に評価するためのメタモルフィック・テストフレームワークを提案する。
8つの意味保持変換（恒等、言い換え、事実の並べ替え、展開、縮約、学術文脈、ビジネス文脈、対照的表現）を定義し、4つのアーキテクチャにまたがる7つの基盤モデル（Hermes、Qwen3、DeepSeek-R1、gpt-oss）を対象にテストします。
8つの科学分野にまたがる19の多段階推論問題を評価し、モデルの規模が堅牢性を予測しないことを発見した。小型のQwen3-30B-A3Bが最高の安定性を達成し、79.6%の不変応答（意味的類似度0.91）を示した。
結果は、堅牢性をサイズだけから推測できないことを示唆し、LLMエージェントを評価する際にはメタモルフィック・テストベンチマークの必要性を強調している。

要約: 大規模言語モデル（LLMs）は、意思決定支援、科学的問題解決、およびマルチエージェントの協調システムにおいて、ますます自律的な推論エージェントとして機能しています。しかし、重大な影響を与えるアプリケーションでLLMエージェントを展開するには、それらの推論が意味的に同値な入力変化に対しても安定していることを保証する必要があり、これを意味的不変性と呼びます。標準的なベンチマーク評価は、固定された定型的な問題定式化に対する精度を評価しますが、この重要な信頼性の次元を捉えきれていません。これらの不足を補うため、本論文では、LLM推論エージェントの頑健性を体系的に評価するためのメタモルフィック検査フレームワークを提示します。8つの意味保持変換（同一性、パラフレーズ、事実の再配置、展開、縮約、学術的文脈、ビジネス文脈、対照的な定式化）を適用し、4つの異なるアーキテクチャ系を横断する7つの基盤モデルにわたって適用します：Hermes（70B, 405B）、Qwen3（30B-A3B、235B-A22B）、DeepSeek-R1、および gpt-oss（20B, 120B）を含む。私たちの評価は、8つの科学分野にまたがる19の多段階推論問題を対象としています。結果は、モデルの規模が頑健性を予測しないことを示しています。より小型の Qwen3-30B-A3B が最高の安定性を達成しました（79.6% の不変応答、意味的類似性 0.91）、一方で大きなモデルは脆弱性を示します。

返却形式: {"translated": "翻訳されたHTML"}