CentaurTA Studio:テーマ分析のための自己改善型ヒューマン・エージェント協調システム

arXiv cs.AI / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、オープンコーディングとテーマ構築におけるヒューマン・エージェント協調を自己改善でスケールさせることを目的としたWebベースのシステム「CentaurTA Studio」を提案しています。
  • シミュレータの下書き作成と専門家による検証を分離した2段階の人手フィードバック、検証済みフィードバックを再利用可能なアライメント指針へ蒸留する永続的なプロンプト最適化、ルーブリックに基づく評価と早期終了を組み合わせています。
  • 3つの領域で、CentaurTAは最大92.12%の精度を達成し、ベースラインを上回る性能を示し、LLMベースの判定と人手アノテーションの一致は平均κ=0.68で実質的な信頼性があります。
  • 検証では、フィードバックループやCritic、早期終了といった主要要素を外すと精度低下や対話コスト増加が大きくなることが示され、最良の性能は約10ラウンド(約25分)で到達します。

Abstract

主題分析はスケールさせるのが難しいです。手作業のワークフローは労力を要します。一方で、完全に自動化されたパイプラインはしばしば制御性や透明な評価を欠きます。私たちは、オープンコーディングとテーマ構築における自己改善型の人間—エージェント協調のためのウェブベースシステム、 \textbf{CentaurTA Studio} を提示します。このシステムは (1) シミュレータの下書き作成と専門家による検証を分離する二段階の人間フィードバック・パイプライン、(2) 検証済みフィードバックを再利用可能な整合(アラインメント)の原則へ蒸留する永続的なプロンプト最適化、(3) プロセス制御のための早期停止を備えたルーブリック(評価基準)ベース評価を統合します。 3つのドメインにわたって、CentaurTA は Open Coding と Theme Construction の両方で最も強い性能を達成し、最大で 92.12\% の精度を記録し、基準(ベースライン)システムを一貫して上回ります。ルーブリックに基づく LLM 判定者と人間のアノテータ間の一致は、実質的な信頼性(平均 \kappa = 0.68)に達します。アブレーション研究では、フィードバックループを取り除くと性能が 90\% から 81\% に低下することが示されます。また、Critic を除去するか早期停止を無効化すると、精度が劣化するか、あるいは対話コストが増大します。完全なシステムは、10 回の反復ラウンド(約 25 分)以内にピーク性能へ到達し、専門家のみの洗練に比べて効率が向上していることを示します。