コモンセンス推論としてのもっともらしさ:人間は成功するが、大規模言語モデルはしない
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、トルコ語の前置修飾語節(prenominal relative-clause)の係り受け解釈における曖昧性を解消する際、大規模言語モデルが、人間のように構造に敏感な形で、もっともらしさに基づく「コモンセンス推論」を用いているかどうかを検証する。
- スピードを要する強制選択実験において、人間は、出来事のもっともらしさが系統立ってHigh Attachment(高い係り受け)とLow Attachment(低い係り受け)の選好をそれぞれ正しい方向に押し動かすという強い効果を示す。
- 研究者らは、対応するHigh-Attachment/Low-Attachmentの継続(continuation)を用い、平均トークンあたりの対数尤度(mean per-token log-probabilities)で比較することにより、複数のトルコ語および多言語のLLMを評価する。
- 試験した各モデルにおいて、もっともらしさに駆動された選好の変化は、人間の判断と比べて弱い、不安定、あるいは逆転すらしている。
- 論文は、この診断においてもっともらしさの情報は、人間のようにLLMの係り受け決定を確実に導かないと結論づけるとともに、一般的な言語タスクのスコアを超えて、トルコ語の相対節係り受けを多言語にまたがるベンチマークとして価値あるものだと主張する。




