システム幻覚尺度（SHS）：大規模言語モデルにおける幻覚関連行動を評価するための、最小限でありつつ効果的な人間中心の測定手段

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

システム幻覚尺度（SHS）は、大規模言語モデルにおける幻覚関連行動を測定するために設計された、軽量で人間中心の測定手段です。
SHSはSUSおよびSCSに着想を得ており、モデル出力における事実の信頼性欠如、非整合性、誤導的な提示、ユーザー指示への対応性などの要因を、ドメインに依存しない迅速で解釈可能な評価を提供します。
SHSは明示的に自動幻覚検出器やベンチマーク指標ではなく、現実的な対話中に幻覚現象がユーザー視点からどのように現れるかを捉えます。
210名の参加者を対象とした実世界評価では、SHSは高い明快さと構成妥当性を示し、クロンバックのα係数 = 0.87および次元間の有意な相関（p < 0.001）を含む統計分析によって裏付けられ、SUSおよびSCSとの比較分析において補完的な特性を示し、比較分析、反復的システム開発、展開モニタリングの実用ツールとしてSHSを支持しました。

システム幻覚尺度（SHS）を導入します。SHSは、大規模言語モデル（LLMs）の幻覚関連行動を評価するための、軽量で人間中心の測定手段です。SUS（System Usability Scale）およびSCS（System Causability Scale）などの確立された心理測定ツールに触発され、SHSは、事実の信頼性欠如、非整合性、誤導的な提示、ユーザー指示への対応性を、迅速で解釈可能、ドメイン横断的な評価を可能にします。SHSは明示的に自動幻覚検出器やベンチマーク指標ではなく、現実的な対話条件下で幻覚現象がユーザー視点からどのように現れるかを捉えます。210名の参加者を対象とした実世界評価は、高い明快さ、一貫した応答行動、および構成妥当性を示し、内的一貫性（Cronbachのα係数 = 0.87）および次元間の有意な相関（p < 0.001）などの統計分析によって裏付けられます。SUSおよびSCSとの比較分析は、補完的な測定特性を明らかにし、SHSを比較分析、反復的なシステム開発、および展開モニタリングの実用的なツールとして支持します。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

システム幻覚尺度（SHS）：大規模言語モデルにおける幻覚関連行動を評価するための、最小限でありつつ効果的な人間中心の測定手段

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも