AI Navigate

システム幻覚尺度(SHS):大規模言語モデルにおける幻覚関連行動を評価するための、最小限でありつつ効果的な人間中心の測定手段

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • システム幻覚尺度(SHS)は、大規模言語モデルにおける幻覚関連行動を測定するために設計された、軽量で人間中心の測定手段です。
  • SHSはSUSおよびSCSに着想を得ており、モデル出力における事実の信頼性欠如、非整合性、誤導的な提示、ユーザー指示への対応性などの要因を、ドメインに依存しない迅速で解釈可能な評価を提供します。
  • SHSは明示的に自動幻覚検出器やベンチマーク指標ではなく、現実的な対話中に幻覚現象がユーザー視点からどのように現れるかを捉えます。
  • 210名の参加者を対象とした実世界評価では、SHSは高い明快さと構成妥当性を示し、クロンバックのα係数 = 0.87および次元間の有意な相関(p < 0.001)を含む統計分析によって裏付けられ、SUSおよびSCSとの比較分析において補完的な特性を示し、比較分析、反復的システム開発、展開モニタリングの実用ツールとしてSHSを支持しました。
システム幻覚尺度(SHS)を導入します。SHSは、大規模言語モデル(LLMs)の幻覚関連行動を評価するための、軽量で人間中心の測定手段です。SUS(System Usability Scale)およびSCS(System Causability Scale)などの確立された心理測定ツールに触発され、SHSは、事実の信頼性欠如、非整合性、誤導的な提示、ユーザー指示への対応性を、迅速で解釈可能、ドメイン横断的な評価を可能にします。SHSは明示的に自動幻覚検出器やベンチマーク指標ではなく、現実的な対話条件下で幻覚現象がユーザー視点からどのように現れるかを捉えます。210名の参加者を対象とした実世界評価は、高い明快さ、一貫した応答行動、および構成妥当性を示し、内的一貫性(Cronbachのα係数 = 0.87)および次元間の有意な相関(p < 0.001)などの統計分析によって裏付けられます。SUSおよびSCSとの比較分析は、補完的な測定特性を明らかにし、SHSを比較分析、反復的なシステム開発、および展開モニタリングの実用的なツールとして支持します。