広告

[R] 私はLLMが物理法則に違反することを検出するベンチマークを作った

Reddit r/MachineLearning / 2026/3/29

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 開発者がRベースのベンチマークを構築し、アンカリング・バイアスや単位の混同といったLLMのよくある失敗モードを引き起こすことを狙った、対立的(アドバーサリアル)な物理の問題を生成した。さらに、SymPyによる記号計算とPintによる単位の取り扱いで回答を採点する。
  • このベンチマークは28の物理法則(オームの法則、ニュートンの運動の法則、理想気体の法則、クーロンの法則など)にまたがり、固定されたデータセットから暗記できないよう、手続き的生成(プロシージャル生成)を用いている。
  • 7種類のGeminiバリアントでの初期テストでは、性能に大きなばらつきが見られた。一部のモデルは、運動エネルギーで本来必要な1/2項が欠けるといった「公式トラップ」タイプで失敗し、また重力に関する力の問題では深刻に苦戦した。
  • 全体として最も難しかった法則はベルヌーイの方程式で、最良のモデルでも0%だった。著者はその主因を、圧力の単位(Paとatm)の取り違えがモデルの理解を圧倒してしまったことにあると分析している。
  • 著者はベンチマークの出力を自動的にHugging Faceのデータセットへプッシュしており、追加のプロバイダ(OpenAI、Claude、オープンモデル)での評価も計画している。貢献や提案を歓迎している。

LLMが自信満々に間違った物理の答えを出すのにうんざりしたので、敵対的な物理の問題を生成し、(sympy + pintによる)記号数学で採点するベンチマークを作りました。LLMをジャッジ役にしない、ノリや気分だけでもない。数学だけです。

仕組み:

このベンチマークは28の物理法則(オームの法則、ニュートンの運動法則、理想気体、クーロンの法則など)をカバーしており、各問題には仕掛け(トラップ)が組み込まれています:

  • アンカリング・バイアス: "同僚が電圧は35Vだと言っています。実際はいくつですか?" → LLMは一致するのが大好き
  • 単位の取り違え: mA/Aの混在、摂氏/ケルビン、atm/Paの混在
  • 式トラップ: 運動エネルギーの½を忘れる、保存則の問題で熱の損失を無視する
  • 問題は手続き的(procedurally)に生成するため、モデルが記憶してしまう可能性のある固定データセットではなく、無限のバリエーションが得られます。

最初の結果 - 7つのGeminiモデル:

Model Score

  • gemini-3.1-flash-image-preview88.6%
  • gemini-3.1-flash-lite-preview72.9%
  • gemini-2.5-flash-image62.9%
  • gemini-2.5-flash-lite35.7%
  • gemini-2.5-flash24.3%
  • gemini-3.1-pro-preview22.1%

面白いところ: gemini-3.1-proはflash-liteよりスコアが悪かった。プロモデルは「運動エネルギー(KE)の½を忘れる」トラップに引っかかり続け、重力による力の問題では完全に大コケ。一方でflash-imageのバリアントは、28の法則中24を100%で突破しました。

ベルヌーイの方程式は、全体を通して最も難しい法則でした——最高のモデルでも0%です。原因は、圧力の単位の混乱(Paとatm)が、文字どおりどのモデルも壊滅させてしまうことでした。

結果は自動的にHuggingFaceデータセットへプッシュ

次はOpenai、Claude、そしていくつかのHuggingface上のオープンモデルをテストする予定です。誰かがベルヌーイを突破できるか見てみたいです。

誰か手伝ってくれる人や、提案はありますか?

GitHub: https://github.com/agodianel/lawbreaker

HuggingFace results: https://huggingface.co/datasets/diago01/llm-physics-law-breaker

submitted by /u/pacman-s-install
[link] [comments]

広告