コンピュータサイエンス > 人工知能
arXiv:2603.09957 (cs)
[2026年3月10日 投稿]
タイトル:Think Before You Lie: How Reasoning Improves Honesty
著者:Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova
Ann Yuan およびほか8名の著者による「Think Before You Lie: How Reasoning Improves Honesty」というタイトルの論文のPDFを表示
PDFを表示
HTML(実験的)
要旨:既存の大規模言語モデル(LLM)の評価では、欺瞞(deception)の発生率が測定されますが、欺瞞的な振る舞いを生み出す根本的な条件については十分に理解されていません。本研究では、誠実さには変動するコストがかかるという現実的な道徳的トレードオフから成る新しいデータセットを用いて、この問いを調査します。審議するための時間が与えられると、より不誠実になる傾向がある人間とは対照的に(Capraro, 2017; Capraro et al., 2019)、本研究では、推論(reasoning)が一貫して、スケール全体および複数のLLMファミリーにわたって誠実さを高めることを見出します。この効果は、推論内容の単なる関数ではありません。というのも、推論の痕跡(reasoning traces)は最終的な振る舞いの良い予測因子になりにくいからです。むしろ本研究では、この効果に対して表現空間(representational space)そのものの基盤となる幾何構造(geometry)が寄与していることを示します。具体的には、この表現空間内の欺瞞領域が準安定(metastable)であることを観察します。欺瞞的な答えは、誠実な答えよりも、入力の言い換え(input paraphrasing)、出力の再サンプリング(output resampling)、活性化ノイズ(activation noise)によって不安定化されやすいのです。本研究はこの観点から推論の効果を解釈します。道徳的推論の一部として熟慮(deliberative)のトークンを生成することは、偏った表現空間を横断することを伴い、結果的にモデルをより安定した「誠実さ」側のデフォルトへと押しやる、というわけです。
| 対象分野: | 人工知能(cs.AI); 計算と言語(cs.CL); 機械学習(cs.LG) |
| 引用: | arXiv:2603.09957 [cs.AI] |
| (またはこの版については arXiv:2603.09957v1 [cs.AI]) | |
| https://doi.org/10.48550/arXiv.2603.09957
さらに詳しく学ぶにはここにフォーカス
DataCite経由のarXiv発行DOI
|
書誌ツール
コード、データ、メディア
デモ
関連論文
arXivLabs について
書誌および引用ツール
Bibliographic Explorerトグル
書誌エクスプローラー (Explorerとは?)
Connected Papers トグル
Connected Papers (Connected Papers とは?)
Litmaps トグル
Litmaps (Litmaps とは?)
scite.ai トグル
scite Smart Citations (スマート引用とは?)
この記事に関連付けられたコード、データ、メディア
alphaXiv トグル
alphaXiv (alphaXiv とは?)
コードへのリンク トグル
論文向け CatalyzeX Code Finder (CatalyzeX とは?)
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
コードへのリンク トグル
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ
Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
レコメンダーと検索ツール
Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
Core レコメンダー トグル
CORE レコメンダー (CORE とは?)
arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト
arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発・共有できるようにするためのフレームワークです。
arXivLabs に取り組む個人および組織の双方が、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを遵守することを明確にしてくれています。arXiv はこれらの価値観に取り組んでおり、それらに従うパートナーとのみ協働します。
arXiv のコミュニティにとって価値のあるプロジェクトのアイデアはありますか? arXivLabs の詳細はこちら。



