AI Navigate

インサイト最新記事一覧 AI大全

広告

[R] 私はLLMが物理法則に違反することを検出するベンチマークを作った

Reddit r/MachineLearning / 2026/3/29

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

開発者がRベースのベンチマークを構築し、アンカリング・バイアスや単位の混同といったLLMのよくある失敗モードを引き起こすことを狙った、対立的（アドバーサリアル）な物理の問題を生成した。さらに、SymPyによる記号計算とPintによる単位の取り扱いで回答を採点する。
このベンチマークは28の物理法則（オームの法則、ニュートンの運動の法則、理想気体の法則、クーロンの法則など）にまたがり、固定されたデータセットから暗記できないよう、手続き的生成（プロシージャル生成）を用いている。
7種類のGeminiバリアントでの初期テストでは、性能に大きなばらつきが見られた。一部のモデルは、運動エネルギーで本来必要な1/2項が欠けるといった「公式トラップ」タイプで失敗し、また重力に関する力の問題では深刻に苦戦した。
全体として最も難しかった法則はベルヌーイの方程式で、最良のモデルでも0%だった。著者はその主因を、圧力の単位（Paとatm）の取り違えがモデルの理解を圧倒してしまったことにあると分析している。
著者はベンチマークの出力を自動的にHugging Faceのデータセットへプッシュしており、追加のプロバイダ（OpenAI、Claude、オープンモデル）での評価も計画している。貢献や提案を歓迎している。

LLMが自信満々に間違った物理の答えを出すのにうんざりしたので、敵対的な物理の問題を生成し、（sympy + pintによる）記号数学で採点するベンチマークを作りました。LLMをジャッジ役にしない、ノリや気分だけでもない。数学だけです。

仕組み:

このベンチマークは28の物理法則（オームの法則、ニュートンの運動法則、理想気体、クーロンの法則など）をカバーしており、各問題には仕掛け（トラップ）が組み込まれています：

アンカリング・バイアス: "同僚が電圧は35Vだと言っています。実際はいくつですか？" → LLMは一致するのが大好き
単位の取り違え: mA/Aの混在、摂氏/ケルビン、atm/Paの混在
式トラップ: 運動エネルギーの½を忘れる、保存則の問題で熱の損失を無視する
問題は手続き的（procedurally）に生成するため、モデルが記憶してしまう可能性のある固定データセットではなく、無限のバリエーションが得られます。

最初の結果 - 7つのGeminiモデル:

Model Score

gemini-3.1-flash-image-preview88.6%
gemini-3.1-flash-lite-preview72.9%
gemini-2.5-flash-image62.9%
gemini-2.5-flash-lite35.7%
gemini-2.5-flash24.3%
gemini-3.1-pro-preview22.1%

面白いところ: gemini-3.1-proはflash-liteよりスコアが悪かった。プロモデルは「運動エネルギー（KE）の½を忘れる」トラップに引っかかり続け、重力による力の問題では完全に大コケ。一方でflash-imageのバリアントは、28の法則中24を100%で突破しました。

ベルヌーイの方程式は、全体を通して最も難しい法則でした——最高のモデルでも0%です。原因は、圧力の単位の混乱（Paとatm）が、文字どおりどのモデルも壊滅させてしまうことでした。

結果は自動的にHuggingFaceデータセットへプッシュ

次はOpenai、Claude、そしていくつかのHuggingface上のオープンモデルをテストする予定です。誰かがベルヌーイを突破できるか見てみたいです。

誰か手伝ってくれる人や、提案はありますか？

GitHub: https://github.com/agodianel/lawbreaker

HuggingFace results: https://huggingface.co/datasets/diago01/llm-physics-law-breaker

submitted by /u/pacman-s-install
[link] [comments]

関連記事

Black Hat Asia

Black Hat Asia

AI Business

2026年の初心者向けベスト無料AIツール — E-GalのノーBSガイド ✨

2026年の初心者向けベスト無料AIツール — E-GalのノーBSガイド ✨

Dev.to

AIによる研究：一次情報、確実性のラベリング、反論への対応

AIによる研究：一次情報、確実性のラベリング、反論への対応

Dev.to

Mastercard Agent Pay、香港で初のAI決済が完了—エージェンティックコマースの時代が始まる

Mastercard Agent Pay、香港で初のAI決済が完了—エージェンティックコマースの時代が始まる

Innovatopia

AIで126K行のAndroidアプリを作った—実際に機能したワークフロー

AIで126K行のAndroidアプリを作った—実際に機能したワークフロー

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告