Abstract
主題分析はスケールさせるのが難しいです。手作業のワークフローは労力を要します。一方で、完全に自動化されたパイプラインはしばしば制御性や透明な評価を欠きます。私たちは、オープンコーディングとテーマ構築における自己改善型の人間—エージェント協調のためのウェブベースシステム、
\textbf{CentaurTA Studio} を提示します。このシステムは (1) シミュレータの下書き作成と専門家による検証を分離する二段階の人間フィードバック・パイプライン、(2) 検証済みフィードバックを再利用可能な整合(アラインメント)の原則へ蒸留する永続的なプロンプト最適化、(3) プロセス制御のための早期停止を備えたルーブリック(評価基準)ベース評価を統合します。
3つのドメインにわたって、CentaurTA は Open Coding と Theme Construction の両方で最も強い性能を達成し、最大で 92.12\% の精度を記録し、基準(ベースライン)システムを一貫して上回ります。ルーブリックに基づく LLM 判定者と人間のアノテータ間の一致は、実質的な信頼性(平均 \kappa = 0.68)に達します。アブレーション研究では、フィードバックループを取り除くと性能が 90\% から 81\% に低下することが示されます。また、Critic を除去するか早期停止を無効化すると、精度が劣化するか、あるいは対話コストが増大します。完全なシステムは、10 回の反復ラウンド(約 25 分)以内にピーク性能へ到達し、専門家のみの洗練に比べて効率が向上していることを示します。