PLaMo 2.1-VL テクニカルレポート

arXiv cs.CV / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文では、自律デバイス向けで日本語対応の軽量ビジョン言語モデル「PLaMo 2.1-VL」が紹介され、ローカル／エッジ展開を想定して8Bと2Bの2種類が提供されます。
対象は主要能力としてVisual Question Answering（VQA）とVisual Groundingの2点で、日英のベンチマークで性能評価が行われています。
大規模な合成データ生成パイプラインと、日本語の学習・評価リソースが整備されている点が特徴です。
報告されている指標では、JA-VG-VQA-500でROUGE-L 61.5、Japanese Ref-L4で85.2%の精度を達成し、同等のオープンモデルを上回るとされています。
実世界の2つのシナリオでは、工具認識による工場タスク分析でゼロショット精度53.9%を達成し、発電所データで微調整すると異常検知のbbox＋ラベルF1スコアが39.7から64.9へ向上します。

要旨: 自律型デバイス向けの軽量ビジョン言語モデル（VLM）であるPLaMo 2.1-VLを導入します。8Bおよび2Bのバリアントを用意しており、日本語による動作に対応したローカルおよびエッジ環境での導入を想定しています。主要な能力として、視覚質問応答（VQA）と視覚的グラウンディングに焦点を当て、2つの現実的なアプリケーションシナリオに対してモデルの開発と評価を行います。具体的には、ツール認識による工場タスク分析、そしてインフラの異常検知です。さらに、大規模な合成データ生成パイプラインと、日本語の包括的な学習・評価リソースも開発します。PLaMo 2.1-VLは、日本語および英語のベンチマークにおいて、同等の比較可能なオープンモデルを上回り、JA-VG-VQA-500でROUGE-Lを61.5、日本語Ref-L4で精度85.2%を達成しています。2つのアプリケーションシナリオにおいては、工場タスク分析でゼロショット精度53.9%を実現し、発電所データで微調整することで、異常検知のbbox + ラベルF1スコアを39.7から64.9へと改善します。

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

メタはAIエージェントの学習のために、従業員のPC上での操作を追跡へ

The Verge

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

PLaMo 2.1-VL テクニカルレポート

要点

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

メタはAIエージェントの学習のために、従業員のPC上での操作を追跡へ

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer