AI Navigate

Microsoft/Phi-4-reasoning-vision-15B の llama.cpp へのサポートが統合されました

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • Microsoft Phi-4-Reasoning-Vision-15B の llama.cpp への統合を実現し、ライブラリを介したモデルの利用を可能にしました。
  • アーキテクチャは SigLIP-2 視覚エンコーダを用いたミッドフュージョン方式を採用; 視覚トークンは言語モデルの埋め込み空間に射影され、マルチモーダル処理のために事前学習済みモデルに注入されます。
  • GUI grounding や細粒度文書分析などのタスクに重要な高解像度画像理解をサポートし、最大3,600の視覚トークンと双方向の intra-image アテンションを提供します。
  • 本モデルは推論と非推論データの混合を用いた監督付き微調整(SFT)で訓練され、<think>ブロックによる拡張チェーン・オブ・思考を用いた推論や、知覚タスクの直接推論 (<nothink> が付与されたタスク) をデフォルトとする、単一のシステムとして動作します。データセットはオープンデータと内部の Microsoft データを組み合わせ、4日間で約240台の NVIDIA B200 GPU を用いて訓練しました。
  • 変更は llama.cpp のプルリクエスト #20168 により文書化され、極めて大規模な訓練スケールよりもデータ中心で中程度の計算要件を示すものとして位置づけられます。
support for microsoft/Phi-4-reasoning-vision-15B has been merged into llama.cpp

https://huggingface.co/dranger003/Phi-4-reasoning-vision-15B-GGUF

このモデルは以下のリンクで確認できます https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B

Phi-4-Reasoning-Vision-15B は、Phi-4-Reasoning 言語モデルのバックボーンと SigLIP-2 視覚エンコーダを用いたミッドフュージョンアーキテクチャを採用したコンパクトなオープンウェイトのマルチモーダル推論モデルです。視覚エンコーダは画像を視覚トークンに変換し、それを言語モデルの埋め込み空間へ射影して事前学習済みの言語モデルに注入します。訓練と推論のコストを抑えつつ、両方の長所を活かします。最大3,600 の視覚トークンを扱える動的解像度の視覚エンコーダにより、高解像度画像理解が可能です。画像内の双方向アテンションを適用して空間推論を改善します。

Phi-4-Reasoning-Vision-15B は、推論データと非推論データを慎重に組み合わせたデータで監督付き微調整(SFT)を用いて訓練されています。単一のシステムとして動作し、<think>...</think> ブロックを用いた拡張チェーン・オブ・思考による推論や、知覚タスクには直接推論を用いるデフォルト(<nothink>)を切り替えます。訓練データは主に厳密にフィルタリングされたオープンソースの視覚と言語データセットで、内部の Microsoft チームの高品質データおよびターゲットデータ取得で補完されます。このデータ中心のアプローチと、約240台の NVIDIA B200 GPU を4日間で用いた中程度の計算要件により、Phi-4-Reasoning-Vision-15B は、より大規模な訓練データと計算資源に頼るモデルと一線を画します。

投稿者 /u/jacek2023
[リンク] [コメント]