VitaTouch：製造業におけるロボット品質検査のための、物性を考慮した視覚-触覚-言語モデル

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

VitaTouch は、製造業の品質検査で必要となる「見た目の形状以外の素材・表面特性」を、視覚と触覚を統合して推定し、自然言語で属性記述できるビジョン-タッチ-言語モデルとして提案されています。
モダリティ別エンコーダと dual Q-Former により言語に有用な視覚・触覚特徴を抽出し、LLM への prefix tokens として圧縮して利用し、さらに対照学習で視覚と触覚の結び付きを明示的に強めています。
マルチモーダルデータセット VitaSet（186物体、52k画像、5.1kの人手検証付き instruction-answer）を構築し、硬さ・粗さ推定や物性記述で高い性能を報告しています。
LoRA による微調整で欠陥認識（2/3/5カテゴリ）やクローズドループ認識、エンドツーエンドの仕分け成功率について、ラボ内ロボット試験で高精度の結果を示しています。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH