嘘をつく前によく考えよう：推論が誠実さを向上させる方法

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本研究は、大規模言語モデル（LLM）における推論プロセスが誠実さにどのように影響するかを検証し、推論がモデルの規模やファミリーを問わず誠実さを高めることを示しています。
人間とは異なり、熟考によって誠実さが低下する場合もある一方で、LLMは推論するとより誠実になる傾向があります。
誠実さの向上は、モデルの表現空間の幾何構造に関連しており、欺瞞的な応答は誠実な応答よりも安定性が低く、容易に乱されることがわかっています。
入力の言い換え、出力の再サンプリング、活性化ノイズなどの手法は欺瞞的な出力を不安定化させる傾向があり、安定した誠実な答えへの移行を促します。
これらの発見は、LLM内部の表現空間の構造により、道徳的推論が本質的により誠実なデフォルトへとモデルを自然に誘導することを示唆しています。

コンピュータサイエンス > 人工知能

arXiv:2603.09957 (cs)

[2026年3月10日投稿]

タイトル:Think Before You Lie: How Reasoning Improves Honesty

著者:Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova

Ann Yuan およびほか8名の著者による「Think Before You Lie: How Reasoning Improves Honesty」というタイトルの論文のPDFを表示

PDFを表示 HTML（実験的）

要旨:既存の大規模言語モデル（LLM）の評価では、欺瞞（deception）の発生率が測定されますが、欺瞞的な振る舞いを生み出す根本的な条件については十分に理解されていません。本研究では、誠実さには変動するコストがかかるという現実的な道徳的トレードオフから成る新しいデータセットを用いて、この問いを調査します。審議するための時間が与えられると、より不誠実になる傾向がある人間とは対照的に（Capraro, 2017; Capraro et al., 2019）、本研究では、推論（reasoning）が一貫して、スケール全体および複数のLLMファミリーにわたって誠実さを高めることを見出します。この効果は、推論内容の単なる関数ではありません。というのも、推論の痕跡（reasoning traces）は最終的な振る舞いの良い予測因子になりにくいからです。むしろ本研究では、この効果に対して表現空間（representational space）そのものの基盤となる幾何構造（geometry）が寄与していることを示します。具体的には、この表現空間内の欺瞞領域が準安定（metastable）であることを観察します。欺瞞的な答えは、誠実な答えよりも、入力の言い換え（input paraphrasing）、出力の再サンプリング（output resampling）、活性化ノイズ（activation noise）によって不安定化されやすいのです。本研究はこの観点から推論の効果を解釈します。道徳的推論の一部として熟慮（deliberative）のトークンを生成することは、偏った表現空間を横断することを伴い、結果的にモデルをより安定した「誠実さ」側のデフォルトへと押しやる、というわけです。

対象分野:	人工知能（cs.AI）; 計算と言語（cs.CL）; 機械学習（cs.LG）
引用:	arXiv:2603.09957 [cs.AI]
	（またはこの版については arXiv:2603.09957v1 [cs.AI]）
	https://doi.org/10.48550/arXiv.2603.09957 さらに詳しく学ぶにはここにフォーカス DataCite経由のarXiv発行DOI

投稿履歴

投稿者: Alicia Machado [メールを表示]
[v1] 2026年3月10日（火）17:52:49 UTC（7,383 KB）

全文リンク:

論文へのアクセス:

Ann Yuan およびほか8名の著者による「Think Before You Lie: How Reasoning Improves Honesty」というタイトルの論文のPDFを表示

PDFを表示
HTML（実験的）
TeXソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.AI

< 前 | 次 >

新着 | 最近 | 2026-03

次の条件で閲覧を切り替え:

cs
cs.CL
cs.LG

参考文献 & 引用

NASA ADS
Google Scholar
Semantic Scholar

BibTeX引用をエクスポート読み込み中...

BibTeX形式の引用

提供元:

ブックマーク

書誌ツール

書誌および引用ツール

Bibliographic Explorerトグル

書誌エクスプローラー (Explorerとは？)

Connected Papers トグル

Connected Papers (Connected Papers とは？)

Litmaps トグル

Litmaps (Litmaps とは？)

scite.ai トグル

scite Smart Citations (スマート引用とは？)

コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv トグル

alphaXiv (alphaXiv とは？)

コードへのリンクトグル

論文向け CatalyzeX Code Finder (CatalyzeX とは？)

DagsHub トグル

DagsHub (DagsHub とは？)

GotitPub トグル

Gotit.pub (GotitPub とは？)

Huggingface トグル

Hugging Face (Huggingface とは？)

コードへのリンクトグル

Papers with Code (Papers with Code とは？)

ScienceCast トグル

ScienceCast (ScienceCast とは？)

デモ

Replicate トグル

Replicate (Replicate とは？)

Spaces トグル

Hugging Face Spaces (Spaces とは？)

Spaces トグル

TXYZ.AI (TXYZ.AI とは？)

レコメンダーと検索ツール

Influence Flower へのリンク

Influence Flower (Influence Flower とは？)

Core レコメンダートグル

CORE レコメンダー (CORE とは？)

著者
掲載先
所属機関
トピック

arXivLabs について

arXivLabs：コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発・共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織の双方が、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを遵守することを明確にしてくれています。arXiv はこれらの価値観に取り組んでおり、それらに従うパートナーとのみ協働します。

arXiv のコミュニティにとって価値のあるプロジェクトのアイデアはありますか？ arXivLabs の詳細はこちら。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

嘘をつく前によく考えよう：推論が誠実さを向上させる方法

要点

コンピュータサイエンス > 人工知能

タイトル:Think Before You Lie: How Reasoning Improves Honesty

投稿履歴

論文へのアクセス:

参考文献 & 引用

BibTeX形式の引用

ブックマーク

書誌および引用ツール

この記事に関連付けられたコード、データ、メディア

デモ

レコメンダーと検索ツール

arXivLabs：コミュニティの協力者と取り組む実験的プロジェクト

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer