要旨: ユーザーは通常、言語モデルと単一の出力を通じて相互作用し評価しますが、各出力は可能な完了の幅広い分布からの1つのサンプルにすぎません。この相互作用は、モード、まれなエッジケース、小さなプロンプト変更への感度といった分布に関する構造を隠してしまい、オープンエンド型タスクのためのプロンプト反復を行う際に、逸話から過度に一般化する原因になります。LMを使用する研究者(n=13)を対象とした形成的研究に基づき、実際の場面でどのようなときに確率的性質が重要になるのか、彼らが言語に関する分布についてどのように考えるのか、そして現在のワークフローのどこで破綻が生じるのかを調査したうえで、GROVEを導入します。GROVEは、複数のLM世代をテキストグラフ上の重なり合う経路として表現するインタラクティブな可視化であり、生の出力へのアクセスを保持しつつ、共有される構造、分岐点、クラスタを明らかにします。私たちは、相補的な分布的タスクを対象とした3つのクラウドソースによるユーザー研究(参加者数N=47, 44, 40)にわたって評価を行いました。結果は、ハイブリッドなワークフローを支持しています。すなわち、グラフの要約は、多様性の評価などの構造的判断を改善する一方で、直接の出力の検査は、細部にこだわる質問に対してより強力であるというものです。
One Outputを超えて:言語モデル生成の分布を可視化・比較する
arXiv cs.AI / 2026/4/22
📰 ニュースTools & Practical UsageModels & Research
要点
- ユーザーが言語モデルとやり取りする際に用いがちな「1つの出力」では、複数モードや稀なエッジケース、プロンプト変更への感度といった分布上の重要な構造が見えにくいと論じています。
- 本研究ではGROVEを提案しており、複数の生成をテキストグラフ上の重なり合う複数経路として表現することで、共通構造・分岐点・クラスターを直感的に把握できるようにしています。
- 設計は、確率的な挙動(stochasticity)が実務でいつ重要になるか、また分布を考える際に既存のワークフローがどこで破綻するかを調べた形成的調査(n=13)に基づいています。
- 分布に関するタスクを対象にした3つのクラウドソーシング実験(N=47, 44, 40)では、グラフ要約が多様性評価などの構造判断に有効である一方、細部を要する問いには生の出力の直接確認が強いことが示唆されています。



