Microsoft/Phi-4-reasoning-vision-15B の llama.cpp へのサポートが統合されました

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureModels & Research

原文を読む →

共有:

要点

Microsoft Phi-4-Reasoning-Vision-15B の llama.cpp への統合を実現し、ライブラリを介したモデルの利用を可能にしました。
アーキテクチャは SigLIP-2 視覚エンコーダを用いたミッドフュージョン方式を採用; 視覚トークンは言語モデルの埋め込み空間に射影され、マルチモーダル処理のために事前学習済みモデルに注入されます。
GUI grounding や細粒度文書分析などのタスクに重要な高解像度画像理解をサポートし、最大3,600の視覚トークンと双方向の intra-image アテンションを提供します。
本モデルは推論と非推論データの混合を用いた監督付き微調整(SFT)で訓練され、<think>ブロックによる拡張チェーン・オブ・思考を用いた推論や、知覚タスクの直接推論 (<nothink> が付与されたタスク) をデフォルトとする、単一のシステムとして動作します。データセットはオープンデータと内部の Microsoft データを組み合わせ、4日間で約240台の NVIDIA B200 GPU を用いて訓練しました。
変更は llama.cpp のプルリクエスト #20168 により文書化され、極めて大規模な訓練スケールよりもデータ中心で中程度の計算要件を示すものとして位置づけられます。

support for microsoft/Phi-4-reasoning-vision-15B has been merged into llama.cpp

https://huggingface.co/dranger003/Phi-4-reasoning-vision-15B-GGUF

このモデルは以下のリンクで確認できます https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B

Phi-4-Reasoning-Vision-15B は、Phi-4-Reasoning 言語モデルのバックボーンと SigLIP-2 視覚エンコーダを用いたミッドフュージョンアーキテクチャを採用したコンパクトなオープンウェイトのマルチモーダル推論モデルです。視覚エンコーダは画像を視覚トークンに変換し、それを言語モデルの埋め込み空間へ射影して事前学習済みの言語モデルに注入します。訓練と推論のコストを抑えつつ、両方の長所を活かします。最大3,600 の視覚トークンを扱える動的解像度の視覚エンコーダにより、高解像度画像理解が可能です。画像内の双方向アテンションを適用して空間推論を改善します。

Phi-4-Reasoning-Vision-15B は、推論データと非推論データを慎重に組み合わせたデータで監督付き微調整（SFT）を用いて訓練されています。単一のシステムとして動作し、<think>...</think> ブロックを用いた拡張チェーン・オブ・思考による推論や、知覚タスクには直接推論を用いるデフォルト（<nothink>）を切り替えます。訓練データは主に厳密にフィルタリングされたオープンソースの視覚と言語データセットで、内部の Microsoft チームの高品質データおよびターゲットデータ取得で補完されます。このデータ中心のアプローチと、約240台の NVIDIA B200 GPU を4日間で用いた中程度の計算要件により、Phi-4-Reasoning-Vision-15B は、より大規模な訓練データと計算資源に頼るモデルと一線を画します。

投稿者 /u/jacek2023
[リンク] [コメント]

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

MCPとは何ですか？

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

Microsoft/Phi-4-reasoning-vision-15B の llama.cpp へのサポートが統合されました

要点

関連記事

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

MCPとは何ですか？

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer