概要: 4語アナロジー(A:B::C:D)は古くから「平行四辺形」として幾何的にモデル化されてきたが、最近の研究はこのモデルが人間がアナロジーを生み出す方法をうまく捉えていないことを示唆しており、単純な局所的類似性ヒューリスティクスがしばしばより良い説明を提供する(Peterson et al., 2020)。しかし、平行四辺形モデルが失敗するのはアナロジー関係のモデルとして不適切だからか、それとも人々が関係を保持するアナロジーを生成するのがあまり得意でないからか。私たちは、(Peterson et al., 2020)の同じアナロジー問題の集合に対して、人間と大規模言語モデル(LLM)のアナロジー補完を比較した。LLMが生成したアナロジーは、人間が生成したものより信頼性高く評価されるだけでなく、分布埋め込み空間(GloVe)における平行四辺形構造への整合性もより高いことが分かった。特に、人間のアナロジーに対する改善は、局所的な類似性への感度の高まりではなく、より大きな平行四辺形の整合性と入手可能な語への依存の低下によって駆動されていたことを示す。さらに、LLM の優位性は、LLM が一様に優れた応答を示すことによるのではなく、人間が長尾の弱い補完を生み出すことによる。両システムの最頻出(モーダル)応答のみを比較すると、LLM の優位性は消える。しかし、より大きな平行四辺形の整合性と低語頻度は、人間よりも高く評価される LLM 補完を予測し続ける。全体として、これらの結果は、平行四辺形モデルが語のアナロジーの説明として不適切であるということではない。むしろ、人間はこの関係的制約を満たす補完をしばしば生み出せない可能性があるのに対し、LLM はより一貫してそれを達成する。
パラレログラムが逆襲する: LLMは人間より優れた類推を生成する
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は人間が作成したものとLLM生成の4語の語類推を比較し、LLMの補完がより良いと評価され、GloVe埋め込み空間におけるパラレログラム構造により近く整合していることを報告している。
- LLMの優位性は、より大きなパラレログラム整合性と、容易にアクセスできる高頻度語への依存の低さに起因する、局所的な類似性への感度の向上ではない。
- 一方、モーダル(最頻出)回答に限定すると、LLMの優位性は消失し、上位の回答については人間がLLMと同等であることが示されている。
- 結果は、パラレログラムモデルが語類推の妥当な説明として依然として有効であることを示唆しており、LLMsはより一貫性があり、制約を満たす補完を提供する。
- 含意は、AI支援による類推生成と認知モデリングを指し、補完の分布が人間とLLMでどのように異なるかを示している。


