要約: 生成的なビデオモデルは、精神健康体験の複雑な描写を生み出す能力を高めているが、これらのシステムがうつ病のような状態をどのように表現するかについてはほとんど知られていない。本研究は、OpenAIのSora 2生成ビデオモデルがうつ病をどのように描写するかを特徴づけ、描写が消費者向けアプリと開発者APIのアクセス点で異なるかどうかを検討する。単語「Depression」というプロンプトを用いて、二つのアクセス点—消費者向けアプリ(n=50)と開発者API(n=50)—で100本の動画を生成した。二名の訓練を受けたコーダーが、独立して物語構造、視覚環境、オブジェクト、人物デモグラフィック、人物状態をコード化した。視覚美学、音声、意味内容、時間的ダイナミクスにわたる計算的特徴が抽出され、モダリティ間で比較された。アプリ生成の動画には顕著な回復バイアスが見られた:78%(39/50)がうつ状態から解決へ向かう物語の展開を特徴としていたのに対し、API出力は14%(7/50)だった。アプリ動画は時間とともに明るさが増加した(傾斜 = 2.90 明るさ単位/秒、APIは -0.18); d = 1.59, q < .001。動きは三倍多く含まれていた(d = 2.07, q < .001)。両モダリティにわたり、動画は狭い視覚語彙に収束し、繰り返し現れるオブジェクトとしてパーカー(フード付き)(n=194)、窓(n=148)、雨(n=83)が挙げられた。被写体は主に若年成人であった(88%、年齢は20-30歳)で、ほぼ常に一人だった(98%)。性別はアクセス点によって異なった:アプリ出力は男性寄り(68%)、API出力は女性寄り(59%)だった。Sora 2はうつ病のための新しい視覚文法を創出するわけではなく、文化的アイコン表象を圧縮・再結合する一方で、プラットフォームレベルの制約はどの物語がユーザーに届くかを大幅に形作る。臨床医は、AI生成の精神健康ビデオコンテンツが臨床知識ではなく、訓練データとプラットフォーム設計を反映していること、そして患者が脆弱な時期にそのようなコンテンツに遭遇する可能性があることを認識すべきである。
生成系AI動画モデルにおけるうつ病の描写: OpenAIのSora 2に関する予備的研究
arXiv cs.AI / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、OpenAIのSora 2生成動画モデルがうつ病をどのように描写するかを特徴づけ、100本の動画を「Depression」という語でプロンプトした場合の、消費者向けアプリの出力と開発者APIの出力を比較する。
- アプリ出力は回復傾向を示し(動画の78%が解決方向へ進む)、API出力と比べて時間とともにモーションと明るさが高くなることを示唆しており、プラットフォームの制約が物語のスタイルに影響を与えることを示している。
- どちらのモダリティにも共通して、動画は限られた視覚語彙を用い、繰り返し登場する物体(フーディー、窓、雨)を特徴とし、主に若年成人で、孤独な人物が描かれ、性別の偏りはアクセス手段によって異なる(アプリ:男性68%、API:女性59%)。
- 著者らは、Sora 2は新しい視覚文法を生み出すのではなく、既存のアイコノグラフィを組み合わせており、プラットフォームの制約がユーザーへ届くコンテンツを形作っていると結論づけ、臨床家と患者はトレーニングデータと設計上の選択を踏まえてAI生成のメンタルヘルス関連コンテンツを解釈すべきだと注意を促している。