言語モデルにおける文理解ストラテジーを探るためのデュアルタスク・パラダイム

arXiv cs.CL / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、文理解と算術計算の両方を同時に課すデュアルタスク・パラダイムを提案し、言語モデルが限られた作業メモリ資源をどのように配分するかを調べます。
実験では、GPT-4o、o3-mini、o4-mini を含むモデルが、デュアルタスク条件下で人間に近い合理的推論により近い「もっともらしさ（ plausibility ）に基づく」文理解へと挙動を変えることが示されます。
その主な根拠は、もっともらしい文と不可能な文（例：「バーテンダーがカクテルをブレンドした」vs. 役割を逆にした文）での精度差が、デュアルタスク条件で単一タスクよりも大きくなる点です。
これらの結果は、記憶（保存）と文処理のバランスに関する制約が、LMの合理的推論を促しうることを示唆しています。

概要: 言語モデル（LM）は、特に読了時間などの文処理コストを予測する際に、認知資源が制限されると、人間のように振る舞う傾向があります。しかし、このような制約が同様に文理解の方略へ影響するかどうかは、なお不明です。さらに、既存の手法は、人間のワーキングメモリの中核である「記憶の保持」と「文処理」のバランスを直接の対象としていません。そこで本課題では、「2つのコクテル + ブレンド3 = ...」のような文理解課題と、算術計算課題を組み合わせたデュアルタスク・パラダイムを提案します。実験の結果、デュアルタスク条件下では、GPT-4o、o3-mini、o4-miniはいずれも、人間の合理的推論をなぞるように、もっともらしさ（ plausibility ）に基づく理解へとシフトすることが分かりました。具体的には、単一タスク条件と比べて、デュアルタスク条件では、もっともらしい文（例：「そのコクテルはバーテンダーによってブレンドされた」）と、そうでない文（例：「そのバーテンダーはコクテルによってブレンドされた」）との間で、精度の差がより大きくなります。これらの結果は、記憶と処理資源のバランスに関する制約が、LMにおける合理的推論を促進することを示唆しています。より広く言えば、それらは、人間らしい文理解が本質的に、限られた認知資源の割り当てによって生じる、という見方を支持します。

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

Reddit r/MachineLearning

エージェントの「アムネジア」とヘンリー・モライソンの事例

Dev.to

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

Dev.to

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

Dev.to

言語モデルにおける文理解ストラテジーを探るためのデュアルタスク・パラダイム

要点

関連記事

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

エージェントの「アムネジア」とヘンリー・モライソンの事例

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer