SafeMath：推論時の安全性が数学の精度を向上させる

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、LLMが有害または偏った数学の文章題によってどのように操作され得るか、特に子どもを対象とした教育文脈で用いられるナラティブ（物語）形式のプロンプトに焦点を当てて検討する。
そのうえで、基礎となる数学的な推論は明確に保ったまま、機微または有害な文脈を埋め込むための算術問題1.9k件からなるデータセット「ToxicGSM」を導入する。
著者らはToxicGSM上で既存のLLM挙動を監査し、安全性を強制することと数学的正確性を保つことのトレードオフを分析する。
さらに、SafeMathとして、言語上の害と数学的推論を切り離すことで、有害な出力を減らしつつ、数学的推論性能を維持（場合によっては向上）する推論時の安全性アラインメント手法を提案する。
データセットとソースコードは公開され、数学的課題における安全性と精度に関するさらなる体系的研究を支援する。

note

note

note

note

note