LLMをジャッジとして用いた人手介入付き、持続可能な都市旅行の多次元評価

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

人手によるアノテーションが高コストな状況で、従来の指標ではステークホルダー中心の目標を捉えにくいことを背景に、持続可能な都市旅行の会話型推薦リストを多面的に評価する方法を扱っています。
推薦内容を単一の総合指標ではなく、適合性（relevance）、多様性（diversity）、持続可能性（sustainability）、人気バランス（popularity balance）の4つの次元でLLM-as-a-Judgeにより採点する枠組みを提案しています。
キャリブレーションは3段階で行い、(1) 複数LLMによるベースライン判定、(2) 専門家評価による系統的ミスアラインメントの特定、(3) ルールとfew-shot例による次元別のキャリブレーションを実施します。
2つの推薦設定での実験では、総合ランキングでは審査者同士が一致していても、モデル固有のバイアスや次元ごとのばらつきが大きく、特に「持続可能性」の解釈が分岐することが示されています。
再現性のためにプロンプトとコードを公開しており、GitHubリポジトリ（リンク先）で確認できます。

概要: 人間による注釈のコストが高く、標準的な指標が利害関係者中心の目標を無視する場合、きめ細かな会話型の旅行推薦を評価することは困難です。本研究では、4つの次元――関連性、多様性、持続可能性、人気のバランス――にわたって、サステナブルな都市旅行リストを対象とした「LLM-as-Judges（LLMを審判として用いる）」を検討し、3段階の校正（キャリブレーション）フレームワークを提案します: (1) 複数のLLMによるベースラインの審判、(2) 認識の系統的な不一致を特定するための専門家評価、(3) ルールと少数ショット例による次元別の校正です。2つの推薦設定において、審判同士が全体のランキングについては合意していても、モデル固有のバイアスと、次元レベルでの高い分散を観察します。校正は、次元ごとの推論を明確にする一方で、持続可能性に関する解釈が分岐していることも明らかにし、透明性のある、バイアスに配慮したLLM評価の必要性を示します。再現性のためのプロンプトとコードを公開します: https://github.com/ashmibanerjee/trs-llm-calibration.