触覚グラフィックスの自動的な細粒度評価と編集への一歩:TactileEval

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • TactileEvalは、既存データセットが粗い全体品質スコアしか提供せず修正に直結する手がかりがないという課題に対し、触覚グラフィックスの細粒度な評価と修復を自動化するための3段階パイプラインを提案しています。
  • 本研究では、専門家の自由記述コメントから得られ、BANA基準に整合する5つの品質カテゴリ(視点角度、部品の完全性、背景の雑多さ、テクスチャの分離、線の品質)に基づくタクソノミーを構築します。
  • さらに、Amazon Mechanical Turkを用いて66の物体クラスに対し1万4,095件の構造化アノテーションを収集し、6つの物体ファミリーに整理して評価と編集の両方を可能にします。
  • 構築したデータで学習した再現可能なViT-L/14の特徴プローブは、30のタスクにわたって全体テスト精度85.70%を達成し、さらに一貫した難易度の順序付けから、タクソノミーが意味のある知覚構造を捉えていることを示唆します。
  • これらの評価を土台に、ViTで分類スコアをファミリー固有のプロンプトテンプレートに振り分け、gpt-image-1による画像編集で狙った修正を生成する自動編集パイプラインも提示しています。

Abstract

視覚障がい者および全盲・弱視の学習者(BVI)に到達する前に、触覚グラフィックスは慎重な専門家による検証を必要とするが、既存のデータセットは粗い全体的な品質評価しか提供しておらず、実行可能な修正のための信号は得られない。そこで本研究では、このプロセスの自動化へ向けた第一歩として、3段階のパイプラインであるTactileEvalを提示する。TactileNetデータセットに含まれる専門家の自由記述コメントを活用し、BANA規格に整合した5カテゴリの品質タクソノミーを確立する。これには、視点角度、部品の完全性、背景の煩雑さ、テクスチャの分離、線の品質が含まれる。次に、Amazon Mechanical Turkを通じて14,095件の構造化アノテーションを収集し、6つの異なるファミリに整理された66のオブジェクトクラスにまたがる。これらのデータで訓練した再現可能なViT-L/14の特徴プローブは、30の異なるタスクに対して総合テスト精度85.70%を達成し、難易度の順序が一貫していることから、当該タクソノミーが意味のある知覚構造を捉えていることが示唆される。これらの評価に基づき、ViTに導かれた自動編集パイプラインを提示する。このパイプラインでは、分類器のスコアをファミリ固有のプロンプトテンプレートに通し、gpt-image-1による画像編集を介して狙いを定めた修正を生成する。コード、データ、モデルはhttps://TactileEval.github.io/ で利用可能である