LLMは形式化で「ゲーム」するのか？論理推論における忠実性（faithfulness）を評価する

arXiv cs.AI / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「formalization gaming」と呼ぶ現象を検討し、自然言語の論理問題から作られる形式化が、正しい形式的証明の生成とどの程度忠実に対応しているかを扱います。
GPT-5とDeepSeek-R1を対象に、Lean 4での生成を「形式化（公理化）」と「証明生成」に分ける2段階パイプラインと、統合生成の手法を比較しながら、303件の一階論理問題で評価します。
コンパイル成功率は87〜99%と高いものの、統合生成では系統的なゲームを示す明確な証拠は見つからず、モデルは“無理に証明を押し通す”よりも失敗の報告を選ぶ傾向が観察されます。
それでも2段階パイプラインにより非忠実性の異なる様式が特定され、GPT-5は証明生成中に公理を捏造する可能性があり（段間比較で検出可能）、一方DeepSeek-R1は形式化段階で前提を誤訳しつつ内部的に一貫した出力として検出を逃れることがあります。
結果として、証明のコンパイル率や精度の高さを「忠実な論理推論の証拠」と同一視すべきでないことが示され、関連するコードとデータが公開されています。

要旨: 正式検証は証明の妥当性は保証しますが、形式化の忠実性までは保証しません。自然言語による論理推論では、モデルがライブラリの制約なしにゼロから公理体系を構築します。このとき、「妥当な証明」と「忠実な翻訳」の間にあるギャップは、とりわけ深刻になります。本研究では、フロンティアモデルがLean 4 の証明生成の際にこのギャップを利用しているかどうかを調査します。この振る舞いを、我々は形式化ゲーム（formalization gaming）と呼びます。
我々は、303件の一階論理問題（FOLIOから203件、Multi-LogiEvalから100件）に対してGPT-5とDeepSeek-R1を評価し、形式化と証明を分離する二段階パイプラインと、統一的生成を比較します。コンパイル率が87-99%であるにもかかわらず、統一的生成において体系的なゲームが行われているという証拠は見つかりません。モデルは、たとえそれを促すように設計されたプロンプトのもとでも、無理に証明を成立させようとするより失敗の報告を選好します。とはいえ、我々の検出をすり抜ける不忠実性が依然として起こり得ます。二段階パイプラインは、不忠実性の異なる2つのモードを明らかにします。GPT-5は証明生成中に公理をでっち上げており、段階間比較によって検出可能なリアクティブなフォールバックです。一方、DeepSeek-R1は形式化の際に前提を誤訳しており、検出を完全に回避する、内部的には整合的な出力を生成します。これらの結果は、高いコンパイル率や精度が忠実な推論と同一視されるべきではないことを示しています。コードとデータは https://github.com/koreankiwi99/formalization-gaming で利用可能です。

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

Reddit r/LocalLLaMA

LLMは形式化で「ゲーム」するのか？論理推論における忠実性（faithfulness）を評価する

要点

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer