嘘をつく前によく考えよう:推論が誠実さを向上させる方法

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本研究は、大規模言語モデル(LLM)における推論プロセスが誠実さにどのように影響するかを検証し、推論がモデルの規模やファミリーを問わず誠実さを高めることを示しています。
  • 人間とは異なり、熟考によって誠実さが低下する場合もある一方で、LLMは推論するとより誠実になる傾向があります。
  • 誠実さの向上は、モデルの表現空間の幾何構造に関連しており、欺瞞的な応答は誠実な応答よりも安定性が低く、容易に乱されることがわかっています。
  • 入力の言い換え、出力の再サンプリング、活性化ノイズなどの手法は欺瞞的な出力を不安定化させる傾向があり、安定した誠実な答えへの移行を促します。
  • これらの発見は、LLM内部の表現空間の構造により、道徳的推論が本質的により誠実なデフォルトへとモデルを自然に誘導することを示唆しています。

コンピュータサイエンス > 人工知能

arXiv:2603.09957 (cs)
[2026年3月10日 投稿]

タイトル:Think Before You Lie: How Reasoning Improves Honesty

Ann Yuan およびほか8名の著者による「Think Before You Lie: How Reasoning Improves Honesty」というタイトルの論文のPDFを表示
PDFを表示 HTML(実験的)
要旨:既存の大規模言語モデル(LLM)の評価では、欺瞞(deception)の発生率が測定されますが、欺瞞的な振る舞いを生み出す根本的な条件については十分に理解されていません。本研究では、誠実さには変動するコストがかかるという現実的な道徳的トレードオフから成る新しいデータセットを用いて、この問いを調査します。審議するための時間が与えられると、より不誠実になる傾向がある人間とは対照的に(Capraro, 2017; Capraro et al., 2019)、本研究では、推論(reasoning)が一貫して、スケール全体および複数のLLMファミリーにわたって誠実さを高めることを見出します。この効果は、推論内容の単なる関数ではありません。というのも、推論の痕跡(reasoning traces)は最終的な振る舞いの良い予測因子になりにくいからです。むしろ本研究では、この効果に対して表現空間(representational space)そのものの基盤となる幾何構造(geometry)が寄与していることを示します。具体的には、この表現空間内の欺瞞領域が準安定(metastable)であることを観察します。欺瞞的な答えは、誠実な答えよりも、入力の言い換え(input paraphrasing)、出力の再サンプリング(output resampling)、活性化ノイズ(activation noise)によって不安定化されやすいのです。本研究はこの観点から推論の効果を解釈します。道徳的推論の一部として熟慮(deliberative)のトークンを生成することは、偏った表現空間を横断することを伴い、結果的にモデルをより安定した「誠実さ」側のデフォルトへと押しやる、というわけです。
対象分野: 人工知能(cs.AI); 計算と言語(cs.CL); 機械学習(cs.LG)
引用: arXiv:2603.09957 [cs.AI]
  (またはこの版については arXiv:2603.09957v1 [cs.AI]
  https://doi.org/10.48550/arXiv.2603.09957
さらに詳しく学ぶにはここにフォーカス
DataCite経由のarXiv発行DOI

投稿履歴

投稿者: Alicia Machado [メールを表示]
[v1] 2026年3月10日(火)17:52:49 UTC(7,383 KB)
全文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.AI
< 前   |   次 >
次の条件で閲覧を切り替え:

参考文献 & 引用

BibTeX引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供元:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

Bibliographic Explorerトグル
書誌エクスプローラー (Explorerとは?)
Connected Papers トグル
Connected Papers (Connected Papers とは?)
Litmaps トグル
Litmaps (Litmaps とは?)
scite.ai トグル
scite Smart Citations (スマート引用とは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv トグル
alphaXiv (alphaXiv とは?)
コードへのリンク トグル
論文向け CatalyzeX Code Finder (CatalyzeX とは?)
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
コードへのリンク トグル
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ

デモ

Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
関連論文

レコメンダーと検索ツール

Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
Core レコメンダー トグル
CORE レコメンダー (CORE とは?)
arXivLabs について

arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発・共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織の双方が、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを遵守することを明確にしてくれています。arXiv はこれらの価値観に取り組んでおり、それらに従うパートナーとのみ協働します。

arXiv のコミュニティにとって価値のあるプロジェクトのアイデアはありますか? arXivLabs の詳細はこちら