要約: 言語モデル(LM)の推論能力を評価することは、その膨大なパラメトリック世界知識によって複雑化されています。ベンチマークの性能はしばしば実際の推論よりも事実の記憶再現を反映します。既存のデータセットや手法(例えば、時間的フィルタリング、言い換え、敵対的置換など)では、この二者を明確に分離することができません。私たちはSynthWorldsを提案します。これはタスクの推論複雑性を事実知識から分離するフレームワークです。SynthWorldsでは、二つの世界を表す並行コーパスを構築します。ひとつは実世界にマッピングされパラメトリック知識を利用可能とし、もうひとつは合成世界にマッピングされそのような知識が意味を持たない構造的に同一の世界です。これらのコーパス上に、多段階質問応答およびページナビゲーションという二つのミラータスクを設計し、両世界間で推論難易度を等しく保ちます。パラメトリック知識のみ利用(例えばクローズドブックQA)および知識強化(例えば検索強化)LM設定での実験は、パラメトリック世界知識の記憶による性能向上、すなわち知識優位のギャップが継続的に存在することを明らかにしました。知識獲得と統合メカニズムはこのギャップを縮小するものの完全に解消せず、システム改良の余地を示しています。SynthWorldsは完全自動かつスケーラブルであり、これまで困難であったLMの評価を管理された環境で実現し、推論能力と記憶の比較を正確かつ検証可能にします。
SynthWorlds:言語モデルにおける推論と知識を分離するための制御された並行世界
arXiv cs.CL / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- SynthWorldsは、言語モデルにおける推論能力と事実知識の想起を分離するために、同一構造を持つ合成世界と現実世界の並行コーパスを生成する新しいフレームワークです。
- このフレームワークでは、パラメトリック知識への依存度が異なるものの、同等の推論複雑性をもつ多段階質問応答とページナビゲーションという二つのミラータスクを構築します。
- 実験により、言語モデルは記憶された知識を用いた場合により良い性能を示し、現在の知識統合メカニズムは推論と想起を部分的にしか橋渡しできていないことを示す知識優位のギャップが継続的に存在することが明らかになりました。
- SynthWorldsは完全自動でスケーラブルな制御評価環境を提供し、記憶された知識とは独立して言語モデルの推論能力を正確に測定することを可能にします。
- この手法により、知識と推論の分離をより効果的に特定・改善することで、言語モデルシステムの性能向上の可能性が広がります。