最近、JMIR Mental Health(Csigó & Cserey、2026)に掲載された新しい論文が目に留まりました。研究者たちは、3つのマルチモーダルLLM(GPT-4o、Grok 3、Gemini 2.0)に対して10枚の標準的なロールシャッハのインクブロットカードを投与し、Exner 包括システムを用いて回答をコード化しました。彼らはモデルの「知覚スタイル」(人の動きか色かのような決定因)や、人に関連するコンテンツのテーマを分析しました。
ただし、この設定の方法論的妥当性を理解するのに私はかなり苦戦していますし、科学コミュニティがどう考えているのか知りたいです。主な懸念は次のとおりです:
大規模なデータ汚染:10枚の標準的なロールシャッハカードに加えて、数十年にわたる心理学の文献、採点マニュアル(Exnerシステムなど)、そして典型的な人間の回答は、インターネット上で広く利用可能です。このデータがすでにモデルの学習用重みに埋め込まれている可能性は非常に高いです。
「知覚」ではなく「検索」の検証:彼らは、新規の、あるいはAIが生成した、あるいは厳密に制御された曖昧画像ではなく、標準的で1世紀前のインクブロットを使っています。つまり、特定のこれらの画像に対して学習データから最も統計的に確からしい語彙的連想を引き当てる能力を試しているだけではないのでしょうか?
コントロール不足:私の理解では、この論文にあるとおり研究者は公開ウェブのインターフェースをデフォルト設定で使用しました(APIなし、温度制御なし)し、モデルごとに一度だけ実行したようで、極めて小さなサンプルサイズしか得られていません。
皮肉にも、著者らは「限界(Limitations)」の章で、モデルが学習中に刺激や採点の概念に遭遇していた可能性があることを明確に認めています。これは、いかなる画像理解とも無関係に出力に影響し得ます。では、少なくともデータ汚染を除外(の試み)するために新しい刺激を使わずに、LLMに投影法的な心理テストを行うことの方法論的に実際の科学的価値は何なのでしょうか?また、LLMの仕組みに基づけば、このような研究はAIが視覚的曖昧性をどのように処理するかについて、有意義なことを何か教えてくれるのでしょうか。それとも、広く知られた心理測定データに基づく高度なパターン照合とテキスト補完を示しているだけなのでしょうか?そして、LLMの学習データに関するこのように露骨な方法論上の抜け穴を含む研究が、どうやって査読を通り、きちんとした学術誌に掲載されるのでしょうか? たぶん私はここで少し批判的すぎるのかもしれません。少しだけ挑発的なことを言いたかっただけです。こちらがその研究です: https://mental.jmir.org/2026/1/e88186?fbclid=IwY2xjawRd27dleHRuA2FlbQIxMQBzcnRjBmFwcF9pZBAyMjIwMzkxNzg4MjAwODkyAAEe-wkKP6fKZRmAAuNvtN6BjknolIGcfTGu0-cLFs6CC49kZ1gcR6ccdcaRiWA_aem_7hHg5G96xjDZ-04YlSs1Ew
[リンク] [コメント]


