数学的推論の自動かつ堅牢性評価に向けて

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 大規模言語モデル(LLM)は数学的推論で脆さがあり、同じ課題の単純な変形で失敗して潜在的な脆弱性が露呈し得ることが指摘されています。
  • 提案手法MaSTerは、意味的一貫性を保ちながら敵対的な変種を生成するために、複数ラウンドの書き換え(rewrite)—検証(verify)ループを用いる自動ロバスト性評価フレームワークです。
  • MaSTerはLLMごとにベンチマーク変種を動的に作成することで、データ汚染のリスクを抑えつつモデル固有の弱点をより的確に掘り起こすことを狙っています。
  • GSM8KおよびMATH-500での実験により、MaSTerが数学タスクで有効であることが示され、数学以外のタスクにも拡張できることが実証されています。
  • MaSTerが生成した変種は微調整用データとして利用でき、モデルの堅牢性を大きく改善できることを示しています。
  • Point 2
  • Point 3

概要: 大規模言語モデル(LLM)は、さまざまな推論集約型タスクにおいて目覚ましい能力を示してきました。しかし、これらのモデルは予期しない脆さを呈し、しばしば同一の基盤タスクの単純な変形にさえ失敗します。既存の頑健性評価は主に手作りのテンプレートや、限られた一連の摂動(パートベーション)ルールに依存しています。その結果、このような手法では、特定のモデルに固有の潜在的な脆弱性を探るための適応性が欠けており、またデータ汚染にも影響を受けやすいままです。これに対処するため、我々はソフトウェアのストレステストに着想を得た自動化フレームワークであるMath Stress Tester(MaSTer)を提案します。MaSTerは、意味の整合性を確実に保ちながら、モデルの失敗を確実に誘発することに成功する、多段の「書き換え—検証(rewrite-verify)」ループによって敵対的な変種を生成します。我々のフレームワークは各LLMごとにベンチマーク変種を動的に生成するため、データ汚染のリスクを最小化します。GSM8KおよびMATH-500での実験により、数学タスクにおけるMaSTerの有効性が示されます。さらに、数学以外のタスクへの拡張可能性も検証し、その幅広い適用性を明らかにします加えて、MaSTerによって生成された合成変種を微調整データセットとして用いることで、モデルの頑健性を大幅に向上できることを示します。