TEC：問題解決における試行錯誤の人間による試行軌跡のコレクション

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、現実的な状況における人間の試行錯誤による問題解決の様子を捉えるための、新しいデータアノテーションプラットフォームおよびデータセット「Trial-and-Error Collection（TEC）」を提案する。
TECは、複数の試行にわたるユーザの完全な軌跡を記録し、フィードバック後の振り返りも収集することで、この行動に関する詳細な訓練データの不足に対処する。
データセットには、58課題を完了した46名の参加者が含まれ、合計5,370件の試行軌跡と41,229ページから導出されたエラーに関する振り返りが含まれる。
実験では、人間とLLMを比較し、人間が大幅に高い精度を達成することを著者らが報告しており、現在のLLM手法よりも人間の試行錯誤戦略の方が有効である可能性が示唆される。
研究者が人間の試行錯誤行動を調べ、より能力の高いAIシステムを開発するために、プラットフォームとデータセットは公開される。

要旨: 試行錯誤は、人間が複雑な問題を解くための基本戦略であり、現実世界の環境で動作する人工知能（AI）システムにとって必要不可欠な能力である。近年、いくつかの試行錯誤型AI手法が提案されてきたが、その多くは研究者によって設計された単純なヒューリスティックに依存しており、限定的な性能向上しか得られていない。根本的な問題は適切なデータの欠如である。現在のモデルは、人間が実際に試行錯誤をどのように行っているかを示す詳細な記録から学習できない。そこでこのギャップを埋めるため、データ注釈プラットフォームおよびそれに対応するデータセット、Trial-and-Error Collection（TEC）を導入する。本プラットフォームは、複数の試行にまたがるユーザの完全な軌跡を記録し、エラーフィードバックを受けた後にユーザの内省（リフレクション）を収集する。このプラットフォームを用いて、58の課題に対し46人の参加者の問題解決プロセスを記録し、41,229のウェブページにわたるエラーフィードバックとともに5,370本の試行軌跡を得た。このデータセットを用いることで、人間がLLMよりも大幅に高い精度を達成することを観察した。これは、人間の方がLLMよりも試行錯誤において効果的であることを示している。TECプラットフォームとデータセットは、人間の試行錯誤の行動を理解し、より能力の高いAIシステムを開発するための貴重な基盤を提供すると考えている。プラットフォームとデータセットは公開されている。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

TEC：問題解決における試行錯誤の人間による試行軌跡のコレクション

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」