Inclusion-of-Thoughts: 決定空間を浄化することで嗜好の不安定性を緩和する

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、もっともらしい紛らわしい選択肢（distractor）が原因で正しい嗜好と誤った嗜好の間で揺らぎ（オシレーション）が生じることにより、LLMがMCQ課題で不安定になる仕組みを扱う。
階層的な自己フィルタリング手法である Inclusion-of-Thoughts（IoT）を提案し、認知負荷を減らすために、もっともらしい選択肢のみを用いて問いを再構成する。
IoTは、紛らわしい選択肢の擾乱（perturbations）下におけるモデルの比較判断の安定性を制御された形で研究する枠組みとして位置づけられる。
フィルタリング過程を明示的に記録することで、意思決定の透明性と解釈可能性を高めることを目指す。
算術・常識・教育ベンチマークに対する実験では、追加される計算オーバーヘッドが最小限であるにもかかわらず、チェーン・オブ・ソートの性能が大幅に向上することが示される。

要旨: 多肢選択問題（MCQ）は、大規模言語モデル（LLM）を評価するために広く用いられている。しかし、LLMはもっともらしい紛らわしい選択肢（ディストラクタ）の存在に対して依然として脆弱である。このことはしばしば、無関係な選択肢に注意を逸らし、その結果として正答と誤答の間で不安定に振動することにつながる。本論文では、この認知負荷（すなわち、ディストラクタの存在下でのモデル嗜好の不安定さ）を軽減し、モデルがもっともらしい解答により効果的に焦点を当てられるように設計した、漸進的な自己フィルタリング戦略 Inclusion-of-Thoughts（IoT）を提案する。我々の手法は、もっともらしい選択肢のみを用いてMCQを再構成し、比較判断を検討するための制御された状況、したがって撹乱下におけるモデル内部の推論の安定性を提供する。このフィルタリング過程を明示的に記録することで、IoTはモデルの意思決定の透明性および解釈可能性も高める。大規模な実験的評価により、IoTは、最小限の計算オーバーヘッドで、算術、常識推論、教育ベンチマークの幅広い領域にわたって、チェーン・オブ・ソート（逐次思考）の性能を大幅に向上させることが示される。

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

Inclusion-of-Thoughts: 決定空間を浄化することで嗜好の不安定性を緩和する

要点

関連記事

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化