コモンセンス推論としてのもっともらしさ：人間は成功するが、大規模言語モデルはしない

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、トルコ語の前置修飾語節（prenominal relative-clause）の係り受け解釈における曖昧性を解消する際、大規模言語モデルが、人間のように構造に敏感な形で、もっともらしさに基づく「コモンセンス推論」を用いているかどうかを検証する。
スピードを要する強制選択実験において、人間は、出来事のもっともらしさが系統立ってHigh Attachment（高い係り受け）とLow Attachment（低い係り受け）の選好をそれぞれ正しい方向に押し動かすという強い効果を示す。
研究者らは、対応するHigh-Attachment/Low-Attachmentの継続（continuation）を用い、平均トークンあたりの対数尤度（mean per-token log-probabilities）で比較することにより、複数のトルコ語および多言語のLLMを評価する。
試験した各モデルにおいて、もっともらしさに駆動された選好の変化は、人間の判断と比べて弱い、不安定、あるいは逆転すらしている。
論文は、この診断においてもっともらしさの情報は、人間のようにLLMの係り受け決定を確実に導かないと結論づけるとともに、一般的な言語タスクのスコアを超えて、トルコ語の相対節係り受けを多言語にまたがるベンチマークとして価値あるものだと主張する。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH