要旨: 本研究では、temperature=0 の条件下で、3つの大規模言語モデル(LLM)—すなわち GPT-4.1、Claude Sonnet 4.6、Gemini 2.5 Flash—における運動処方出力の反復生成に対する一貫性を比較した。各モデルは6つの臨床シナリオに対して20回ずつ処方を生成し、4つの次元(意味的類似性、出力の再現性、FITT分類、安全性の表現)にわたって合計360件の出力を分析した。平均の意味的類似性は GPT-4.1 が最も高く(0.955)、次いで Gemini 2.5 Flash(0.950)、Claude Sonnet 4.6(0.903)であり、モデル間の有意な差が確認された(H = 458.41、p < .001)。決定的に重要なのは、これらのスコアが本質的に異なる生成挙動を反映していた点である。GPT-4.1 は、意味内容が安定したまま 100% の完全に独自な出力を生成した。一方、Gemini 2.5 Flash は顕著な出力の反復(独自出力 27.5%)を示し、類似性スコアの高さが一貫した推論というよりテキストの重複に由来することが示された。同一のデコーディング設定でも、一貫性プロファイルは根本的に異なり、単発の出力評価では捉えられない相違である。安全性の表現は、すべてのモデルで天井(ceiling)レベルに達し、識別指標としての有用性が限定的であることが確認された。これらの結果は、モデル選択が単なる技術的判断ではなく臨床的判断であること、そして LLM による運動処方システムを信頼して導入するためには、反復生成条件下での出力挙動を中核的な基準として扱うべきことを示している。
AIが生成する運動処方のモデル間一貫性:3つの大規模言語モデルでの反復生成研究
arXiv cs.CL / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、GPT-4.1、Claude Sonnet 4.6、Gemini 2.5 Flashの3モデルで温度=0の条件下において、6つの臨床シナリオごとに20回ずつ生成して運動処方出力の一貫性を比較しました。
- 意味的類似度はGPT-4.1が最も高く(0.955)、次いでGemini 2.5 Flash(0.950)、Claude Sonnet 4.6が低い(0.903)という結果となり、モデル間の差は統計的に有意でした。
- 意味的類似度が近い場合でも、モデルの挙動は根本的に異なり、GPT-4.1は100%がユニーク出力だったのに対してGemini 2.5 Flashはユニークが27.5%にとどまり、高い類似度が一貫した推論というよりテキストの重複によって生じていることを示唆しました。
- 安全性表現は3モデルすべてで上限(ceiling)に達しており、この指標だけではモデルの違いを判別できないことが分かりました。
- 著者らは、LLMによる運動処方システムの信頼性を評価するうえでは、単発の出力だけでなく反復生成時の振る舞いを中核基準として扱うべきで、モデル選定は技術的というより臨床的な判断だと結論づけています。



