怠惰か効率的か?LLMを用いたアクセシブルなアイ・トラッキング・イベント検出への道筋

arXiv cs.AI / 2026/4/16

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 本論文は、アイ・トラッキングの凝視イベント検出が、データ形式の多様性や、I-VTやI-DTのような従来の検出器の前処理への感度の高さによって、専門ラボ以外での利用が難しいことを扱う。
  • コード不要のLLM駆動パイプラインを提案し、生のアイ・トラッキングファイルを解釈して、その構造/メタデータを推定し、自然言語プロンプトから実行可能なルーチンを生成する。
  • システムは生成したルーチンを適用して注視(fixation)とサッカード(saccade)を検出・ラベル付けし、その結果と説明レポートの両方をユーザに返す。
  • 公開ベンチマークでの実験では、LLMベースの手法が従来の検出器ワークフローと同等の精度を達成しつつ、技術的オーバーヘッドを大幅に削減できることが示される。
  • 著者らは、このフレームワークをアイ・トラッキング研究のためのアクセシビリティ層として位置づけ、広範なプログラミング変更ではなくプロンプト編集による反復的な改良を可能にする。

要旨: 注視イベント検出は、視覚科学、人間-コンピュータ相互作用、および応用アナリティクスにとって基本となるものです。しかし、現在のワークフローでは、多くの場合、専門的なプログラミング知識や、異種の生データ形式を慎重に取り扱うことが必要になります。I-VT や I-DT のような古典的な検出器は有効ですが、前処理やパラメータ化に対する感度が非常に高いため、専門の研究室以外では利用しにくいという制約があります。本研究では、コード不要の、大規模言語モデル(LLM)駆動パイプラインを導入し、自然言語の指示をエンドツーエンドの解析へと変換します。システムは(1)生の眼球トラッキングファイルを調べ、構造とメタデータを推定し、(2)簡潔なユーザープロンプトからデータクリーニングと検出器実装のための実行可能なルーチンを生成し、(3)生成された検出器を適用して注視(fixations)とサッカード(saccades)をラベル付けし、(4)結果と説明レポートを返し、さらにプロンプトを編集することでユーザが反復的にコードを最適化できるようにします。公開ベンチマークで評価したところ、この手法は従来手法と同等の精度を達成しつつ、技術的な負担を大幅に削減しています。本フレームワークは、眼球トラッキング研究への参入障壁を下げ、コード中心のワークフローに対する、柔軟で利用しやすい代替手段を提供します。