要旨: 大規模言語モデル(LLM)は、自身の知識境界を正確に認識できないため、しばしば幻覚(ハルシネーション)を示します。既存の棄権(abstention)に対する微調整手法は、通常、応答の正確性に基づいてデータセットを直接分割します。その結果、意思決定境界の近傍ではモデルが深刻なラベルノイズに苦しみ、そのために棄権または幻覚の発生率が高くなります。本論文では、潜在空間表現の観点を採用し、意思決定超平面の近傍に「グレ—ゾーン」が存在し、その領域での内的な信念の曖昧さが主要な性能ボトルネックであることを明らかにします。この洞察に基づき、棄権微調整のための **GeoDe**(**Geo**metric **De**noising)フレームワークを提案します。本手法は線形プローブを用いて真の超平面を構築し、棄権の判断に対する信頼度信号として幾何学的距離を用いることで「幾何学的デノイジング(geometric denoising)」を実行します。このアプローチは、曖昧な境界サンプルを除外しつつ、微調整のための高忠実度な信号を保持します。複数のモデル(Llama3、Qwen3)およびベンチマークデータセット(TriviaQA、NQ、SciQ、SimpleQA)に対する実験により、GeoDe がモデルの真実性を大幅に向上させ、分布外(OOD)シナリオにおいて強い汎化性能を示すことが確認されます。コードは https://github.com/Notbesidemoon/GeoDe で公開されています。
グレイゾーンを払拭する:潜在空間の幾何学的デノージングによる精密な知識境界認識
arXiv cs.CL / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、LLMが自身の知識境界を正確に認識できないことが原因となる幻覚を扱い、特に意思決定境界の近傍での問題に焦点を当てています。
- 近傍には「グレイゾーン」が存在し、内部の信念の曖昧さが主要なボトルネックになるため、棄権や幻覚が増えやすいと主張しています。
- 著者らは棄権ファインチューニングのためにGeoDe(幾何学的デノージング)を提案し、線形プローブで“真実の超平面”を構築した上で、棄権判断の信頼度として幾何学的距離を用います。
- Llama3やQwen3を含む複数のモデルと、TriviaQA・NQ・SciQ・SimpleQAのベンチマークで実験した結果、真実性の向上とOOD(分布外)での強い汎化が示されています。
- 併せて、リンクされたGitHubリポジトリで実装も公開されており、再現や発展が可能です。



