TEC:問題解決における試行錯誤の人間による試行軌跡のコレクション

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、現実的な状況における人間の試行錯誤による問題解決の様子を捉えるための、新しいデータアノテーションプラットフォームおよびデータセット「Trial-and-Error Collection(TEC)」を提案する。
  • TECは、複数の試行にわたるユーザの完全な軌跡を記録し、フィードバック後の振り返りも収集することで、この行動に関する詳細な訓練データの不足に対処する。
  • データセットには、58課題を完了した46名の参加者が含まれ、合計5,370件の試行軌跡と41,229ページから導出されたエラーに関する振り返りが含まれる。
  • 実験では、人間とLLMを比較し、人間が大幅に高い精度を達成することを著者らが報告しており、現在のLLM手法よりも人間の試行錯誤戦略の方が有効である可能性が示唆される。
  • 研究者が人間の試行錯誤行動を調べ、より能力の高いAIシステムを開発するために、プラットフォームとデータセットは公開される。

要旨: 試行錯誤は、人間が複雑な問題を解くための基本戦略であり、現実世界の環境で動作する人工知能(AI)システムにとって必要不可欠な能力である。近年、いくつかの試行錯誤型AI手法が提案されてきたが、その多くは研究者によって設計された単純なヒューリスティックに依存しており、限定的な性能向上しか得られていない。根本的な問題は適切なデータの欠如である。現在のモデルは、人間が実際に試行錯誤をどのように行っているかを示す詳細な記録から学習できない。そこでこのギャップを埋めるため、データ注釈プラットフォームおよびそれに対応するデータセット、Trial-and-Error Collection(TEC)を導入する。本プラットフォームは、複数の試行にまたがるユーザの完全な軌跡を記録し、エラーフィードバックを受けた後にユーザの内省(リフレクション)を収集する。このプラットフォームを用いて、58の課題に対し46人の参加者の問題解決プロセスを記録し、41,229のウェブページにわたるエラーフィードバックとともに5,370本の試行軌跡を得た。このデータセットを用いることで、人間がLLMよりも大幅に高い精度を達成することを観察した。これは、人間の方がLLMよりも試行錯誤において効果的であることを示している。TECプラットフォームとデータセットは、人間の試行錯誤の行動を理解し、より能力の高いAIシステムを開発するための貴重な基盤を提供すると考えている。プラットフォームとデータセットは公開されている。