PLaMo 2.1-VL テクニカルレポート

arXiv cs.CV / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、自律デバイス向けで日本語対応の軽量ビジョン言語モデル「PLaMo 2.1-VL」が紹介され、ローカル/エッジ展開を想定して8Bと2Bの2種類が提供されます。
  • 対象は主要能力としてVisual Question Answering(VQA)とVisual Groundingの2点で、日英のベンチマークで性能評価が行われています。
  • 大規模な合成データ生成パイプラインと、日本語の学習・評価リソースが整備されている点が特徴です。
  • 報告されている指標では、JA-VG-VQA-500でROUGE-L 61.5、Japanese Ref-L4で85.2%の精度を達成し、同等のオープンモデルを上回るとされています。
  • 実世界の2つのシナリオでは、工具認識による工場タスク分析でゼロショット精度53.9%を達成し、発電所データで微調整すると異常検知のbbox+ラベルF1スコアが39.7から64.9へ向上します。

要旨: 自律型デバイス向けの軽量ビジョン言語モデル(VLM)であるPLaMo 2.1-VLを導入します。8Bおよび2Bのバリアントを用意しており、日本語による動作に対応したローカルおよびエッジ環境での導入を想定しています。主要な能力として、視覚質問応答(VQA)と視覚的グラウンディングに焦点を当て、2つの現実的なアプリケーションシナリオに対してモデルの開発と評価を行います。具体的には、ツール認識による工場タスク分析、そしてインフラの異常検知です。さらに、大規模な合成データ生成パイプラインと、日本語の包括的な学習・評価リソースも開発します。PLaMo 2.1-VLは、日本語および英語のベンチマークにおいて、同等の比較可能なオープンモデルを上回り、JA-VG-VQA-500でROUGE-Lを61.5、 日本語Ref-L4で精度85.2%を達成しています。2つのアプリケーションシナリオにおいては、工場タスク分析でゼロショット精度53.9%を実現し、発電所データで微調整することで、異常検知のbbox + ラベルF1スコアを39.7から64.9へと改善します。