AIが生成する運動処方のモデル間一貫性：3つの大規模言語モデルでの反復生成研究

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、GPT-4.1、Claude Sonnet 4.6、Gemini 2.5 Flashの3モデルで温度=0の条件下において、6つの臨床シナリオごとに20回ずつ生成して運動処方出力の一貫性を比較しました。
意味的類似度はGPT-4.1が最も高く（0.955）、次いでGemini 2.5 Flash（0.950）、Claude Sonnet 4.6が低い（0.903）という結果となり、モデル間の差は統計的に有意でした。
意味的類似度が近い場合でも、モデルの挙動は根本的に異なり、GPT-4.1は100%がユニーク出力だったのに対してGemini 2.5 Flashはユニークが27.5%にとどまり、高い類似度が一貫した推論というよりテキストの重複によって生じていることを示唆しました。
安全性表現は3モデルすべてで上限（ceiling）に達しており、この指標だけではモデルの違いを判別できないことが分かりました。
著者らは、LLMによる運動処方システムの信頼性を評価するうえでは、単発の出力だけでなく反復生成時の振る舞いを中核基準として扱うべきで、モデル選定は技術的というより臨床的な判断だと結論づけています。

要旨: 本研究では、temperature=0 の条件下で、3つの大規模言語モデル（LLM）—すなわち GPT-4.1、Claude Sonnet 4.6、Gemini 2.5 Flash—における運動処方出力の反復生成に対する一貫性を比較した。各モデルは6つの臨床シナリオに対して20回ずつ処方を生成し、4つの次元（意味的類似性、出力の再現性、FITT分類、安全性の表現）にわたって合計360件の出力を分析した。平均の意味的類似性は GPT-4.1 が最も高く（0.955）、次いで Gemini 2.5 Flash（0.950）、Claude Sonnet 4.6（0.903）であり、モデル間の有意な差が確認された（H = 458.41、p < .001）。決定的に重要なのは、これらのスコアが本質的に異なる生成挙動を反映していた点である。GPT-4.1 は、意味内容が安定したまま 100% の完全に独自な出力を生成した。一方、Gemini 2.5 Flash は顕著な出力の反復（独自出力 27.5%）を示し、類似性スコアの高さが一貫した推論というよりテキストの重複に由来することが示された。同一のデコーディング設定でも、一貫性プロファイルは根本的に異なり、単発の出力評価では捉えられない相違である。安全性の表現は、すべてのモデルで天井（ceiling）レベルに達し、識別指標としての有用性が限定的であることが確認された。これらの結果は、モデル選択が単なる技術的判断ではなく臨床的判断であること、そして LLM による運動処方システムを信頼して導入するためには、反復生成条件下での出力挙動を中核的な基準として扱うべきことを示している。

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

日経XTECH

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も

ITmedia AI+

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

Dev.to

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

AIが生成する運動処方のモデル間一貫性：3つの大規模言語モデルでの反復生成研究

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩む キャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得 AIモデル開発で協力も

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も