要旨: IEEE P1918.1 ワーキンググループによる振動触覚データの標準化は、仮想現実、ヒューマンコンピュータインタラクション、具現化された人工知能における応用を大きく前進させてきました。これらの取り組みにもかかわらず、振動触覚信号の意味論的解釈と理解は、未解決の課題として残っています。本論文では、振動触覚キャプション付け、{it i.e.}, すなわち振動触覚信号から自然言語による記述を生成することに取り組む、最初の試みを行います。振動触覚周期-非周期キャプション付け(ViPAC)を提案します。これは、ハイブリッドな周期-非周期構造や、空間的意味論が欠如していることなど、振動触覚データの本質的な特性を扱うために設計された方法です。具体的には、ViPAC は周期成分と非周期成分を分離するためのデュアルブランチ戦略を採用し、さらに信号特徴を適応的に統合する動的フュージョン機構と組み合わせます。また、特徴の補完性とフュージョンの一貫性を確保するために、直交性制約と重み付け正則化を導入します。加えて、初の振動触覚-テキスト対応データセットである LMT108-CAP を構築します。これは、人気の LMT-108 データセットの表面画像ごとに、GPT-4o を用いて 5 つの制約付きキャプションを生成することで作成されます。実験の結果、ViPAC は音声および画像キャプション付けから適応したベースライン手法を大幅に上回り、語彙的忠実性と意味論的整合性の両面で優れた性能を達成することが示されました。
触覚の言語:デュアルブランチ学習による振動をテキストへ翻訳する
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、振動触覚(バイブロタクタイル)キャプション生成を扱い、振動触覚信号から直接自然言語の記述を生成することで、触覚データに対する意味解釈の重要なギャップを解決する。
- 周期成分と非周期成分(非周期的成分)を分離するデュアルブランチ学習戦略と、特徴を適応的に統合するための動的フュージョン機構を用いた ViPAC を提案する。
- さらに、統合表現における特徴の補完性と一貫性を高めるため、直交性制約と重み付け正則化といった学習上の制約を追加する。
- 評価を可能にするため、著者らは初の振動触覚—テキスト対応データセットである LMT108-CAP を構築し、既存の LMT-108 データセットから GPT-4o を用いて複数の制約付きキャプションを各表面画像に対して生成する。
- 実験の結果、ViPAC は音声/画像キャプション生成から適用したベースライン手法よりも優れており、語彙の忠実性と、信号と生成テキスト間の意味的整合の両方が改善されることが示される。




