要旨: メンタルヘルス支援は、会話型システム(例:LLMベースのツール)によって媒介されることがますます増えていますが、ユーザーはしばしば、受け取る支援の品質や潜在的なリスクを監査するための構造化された手段を欠いています。本稿では、メンタルヘルス支援対話を監査するためのエンドツーエンド・ツールキットである CounselReflect を提案します。単一の不透明な品質スコアを生成するのではなく、CounselReflect は、セッション・レベルの要約、ターン・レベルのスコア、そして証拠に紐づけられた抜粋を備えた、構造化された多次元レポートを提供し、透明性のある検査を可能にします。このシステムは、評価シグナルの2つのファミリを統合します:(i) タスク固有の予測器によって生成される12のモデルベース指標、(ii) 文献に由来するライブラリ(69指標)とユーザー定義のカスタム指標によってカバレッジを拡張するルーブリックベース指標であり、設定可能なLLMジャッジによって実運用化されています。CounselReflect はWebアプリケーション、ブラウザ拡張、ならびにコマンドライン・インターフェース(CLI)として利用可能で、リアルタイムの場面だけでなく大規模な運用にも対応します。人手による評価として、20名の参加者によるユーザー調査と、メンタルヘルス専門職6名による専門家レビューを含み、CounselReflect が理解しやすく、使いやすく、そして信頼できる監査を支援することを示唆しています。デモ動画および完全なソースコードも提供します。
CounselReflect:メンタルヘルス対話を監査するためのツールキット
arXiv cs.CL / 2026/4/1
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- CounselReflect は、対話システムが生成するメンタルヘルス支援の対話を監査するためにユーザーを支援するエンドツーエンドのツールキットであり、構造化された透明性のある評価手法の不足に対処します。
- 単一の不可視な品質スコアではなく、セッションレベルの要約、ターンレベルのスコア、根拠に紐づけられた抜粋といった、多次元で検査可能なレポートを生成します。
- このツールキットは、タスク固有の予測器によるモデルベースの指標 12 個と、文献から導出した 69 個の指標ライブラリによって拡張したルーブリックベースの指標を組み合わせます。さらに、構成可能な LLM ジャッジによって、ユーザー定義のカスタム指標も評価します。
- CounselReflect は、リアルタイム監査と大規模な評価ワークフローの両方に対応するため、Web アプリケーション、ブラウザ拡張機能、CLI として提供されます。
- 初期の検証として、ユーザー調査(参加者 20 名)および専門家レビュー(メンタルヘルス専門職 6 名)を実施しており、デモ資料と完全なソースコードが提供されています。




