TouchAI：言語モデル表現を通じた触覚における人間—AI知覚アライメントの探究

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、視覚などに比べて見落とされがちな「知覚アライメント」について、LLM（大規模言語モデル）と人間の触覚体験との整合性を検証する。
「textile hand」課題として、参加者が2種類の布（ターゲットと参照）を実際に触って差分を言語で説明し、その記述をもとにLLMが高次元埋め込み空間で類似度を評価してターゲットを推定する仕組みを用いた。
結果からは一定の知覚アライメントが確認できる一方で、素材やテキスタイルの種類によってその度合いが大きく変動することが示された。
たとえばシルクサテンでは予測が比較的うまく一致するが、コットンデニムでは一致しにくいなど、テキスタイルごとの性能差が明確になった。
著者らはこのばらつきの要因として考えられる点を議論し、触覚に基づく日常的な理解を支える将来の応用において人間—AIの知覚アライメントを高める利点を論じている。

要旨: 大規模言語モデル（LLM）の振る舞いを人間の意図と一致させることは、将来のAIにとって極めて重要である。この整合の重要な側面でありながら、しばしば見落とされがちな点が、知覚（パーセプチュアル）整合である。触覚のような知覚モダリティは、視覚などの他の感覚モダリティと比べて、より多面的で微妙である。本研究では、「テキスタイルハンド」課題を用いて、LLMが人間の触覚体験とどの程度一致しているかを調査する。私たちは「Guess What Textile（どのテキスタイルか当てて）」という対話を作成し、参加者に、取り扱うための2つのテキスタイルサンプル――ターゲットと参照――を提示した。参加者はそれらを見ずに、違いをLLMに説明した。これらの説明を用いて、LLMはその高次元埋め込み空間内での類似度を評価することで、ターゲットのテキスタイルを特定しようとした。結果は、一定程度の知覚整合が存在することを示しているが、テキスタイルサンプルごとにその程度は大きく異なる。例えば、LLMの予測はシルクサテンではうまく整合しているが、コットンデニムでは整合していない。さらに、参加者は自分たちのテキスタイル体験がLLMの予測と密接に一致しているとは感じていなかった。これは触覚周りの知覚整合について、テキスタイルハンドによって例示される最初の探索に過ぎない。本研究では、この整合のばらつきの可能性のある原因と、より良い人間‐AIの知覚整合が将来の身近な日常タスクにどのように役立ち得るかについて議論する。