LLMが自信満々に間違った物理の答えを出すのにうんざりしたので、敵対的な物理の問題を生成し、(sympy + pintによる)記号数学で採点するベンチマークを作りました。LLMをジャッジ役にしない、ノリや気分だけでもない。数学だけです。
仕組み:
このベンチマークは28の物理法則(オームの法則、ニュートンの運動法則、理想気体、クーロンの法則など)をカバーしており、各問題には仕掛け(トラップ)が組み込まれています:
- アンカリング・バイアス: "同僚が電圧は35Vだと言っています。実際はいくつですか?" → LLMは一致するのが大好き
- 単位の取り違え: mA/Aの混在、摂氏/ケルビン、atm/Paの混在
- 式トラップ: 運動エネルギーの½を忘れる、保存則の問題で熱の損失を無視する
- 問題は手続き的(procedurally)に生成するため、モデルが記憶してしまう可能性のある固定データセットではなく、無限のバリエーションが得られます。
最初の結果 - 7つのGeminiモデル:
Model Score
- gemini-3.1-flash-image-preview88.6%
- gemini-3.1-flash-lite-preview72.9%
- gemini-2.5-flash-image62.9%
- gemini-2.5-flash-lite35.7%
- gemini-2.5-flash24.3%
- gemini-3.1-pro-preview22.1%
面白いところ: gemini-3.1-proはflash-liteよりスコアが悪かった。プロモデルは「運動エネルギー(KE)の½を忘れる」トラップに引っかかり続け、重力による力の問題では完全に大コケ。一方でflash-imageのバリアントは、28の法則中24を100%で突破しました。
ベルヌーイの方程式は、全体を通して最も難しい法則でした——最高のモデルでも0%です。原因は、圧力の単位の混乱(Paとatm)が、文字どおりどのモデルも壊滅させてしまうことでした。
結果は自動的にHuggingFaceデータセットへプッシュ
次はOpenai、Claude、そしていくつかのHuggingface上のオープンモデルをテストする予定です。誰かがベルヌーイを突破できるか見てみたいです。
誰か手伝ってくれる人や、提案はありますか?
GitHub: https://github.com/agodianel/lawbreaker
HuggingFace results: https://huggingface.co/datasets/diago01/llm-physics-law-breaker
[link] [comments]




