Holotron-12B - 高スループットのコンピュータ利用エージェント

Hugging Face Blog / 2026/3/17

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Holotron-12Bは、日常のソフトウェア操作を自動化・高速化する高スループットのコンピュータ利用エージェントとして提示されている。
  • 本記事は、専門家やチームのタスクスループットを向上させることを目的としたユースケースとパフォーマンス上の利点について論じている。
  • 展開に関する検討事項には、インフラストラクチャの互換性・スケーラビリティ・潜在的なリスク管理が含まれる。
  • 2026年3月17日に公開された本稿は、Holotron-12Bを、職場環境におけるソフトウェアの使われ方を形作る、より広範なAIエージェント潮流の一部として位置づけている。

\"スクリーンショット

私たちは Holotron-12B をリリースできることを大変嬉しく思います。H Company のマルチモーダルなコンピュータ利用モデルです。NVIDIA Nemotron-Nano-2 VL モデルをオープンな形で H Company の独自データ混合物上でファインチューニングした Holotron-12B は、私たちの研究所間の緊密な協力の結果であり、生産におけるスケールと性能を主に最適化した新しいタイプのモデルを設計することを目的としています。

H Company は NVIDIA Inception Program の一部です。

このモデルは現在 Hugging Face で利用可能です。

Why We Built Holotron-12B

今日のほとんどのマルチモーダルモデルは、主に静的なビジョンや指示に従うことを最適化しています。しかし Holotron-12B は、私たちの Holo2 モデルと同様に異なる目標を持っています。それは、対話型環境で知覚し、判断し、効率的に行動する必要があるコンピュータ利用エージェントの方針モデルとして機能することです。

Holotron-12Bの導入にあたり、複数の画像を含む長い文脈を処理しつつ、本番環境で効率的かつ効果的にスケールでき、エージェントベンチマークでも優れた性能を発揮できるモデルを作りたかった。NVIDIA Nemotronモデルは推論面の堅牢な基盤を提供し、Holotron-12Bを開発することで、さらなる訓練を通じてモデルがどれだけ多くを成し遂げられるかを示しました。

High Throughput Inference with a Hybrid SSM Architecture

Holotron-12Bの推論効率の大きな飛躍は、その基盤となるNemotronアーキテクチャによって可能となりました。この設計はハイブリッドState-Spaceモデル(SSM)とアテンション機構を活用しています。純粋にトランスフォーマーに基づくモデルとは異なり、この設計は高スループット提供のために最適化されています。State-spaceモデルは、長い文脈推論に対するスケーラビリティを、全アテンション機構に関連する二次計算コストを回避することで提供します。特に、複数の画像と長いインタラクション履歴を含むエージェント作業に有利です。推論の観点から見たSSMの主な貢献は、メモリ使用量を劇的に削減する点です。通常のアテンションはトークンごと・層ごとにKとVの活性化を格納します(悪名高いKVキャッシュ)、一方SSMは線形リカレントモデルで、生成された各シーケンスごとに層ごとに一定の状態のみを格納し、シーケンスの長さに依存しません。

WebVoyagerベンチマークで評価した場合、モデルは長い文脈、複数の高解像度画像、100ベンチマークワーカーの高いリクエスト同時実行性を特徴とする現実世界のマルチモーダルエージェント作業負荷で卓越した性能を示します。最新のSSM最適化(v0.14.1)を備えたvLLMを用い、単一のH100 GPUで実行した場合、Holotron-12BはHolo2-8Bと比較してスループットを2倍以上達成しました。これは、データ生成、アノテーション、オンライン強化学習などのスループット制約のある作業負荷に対して、Holotron-12Bを魅力的な選択肢とします。

統制された実験設定(図2を参照)では、同時実行性が増すにつれてHolotron-12Bは効率的にスケールし続け、最大同時実行100で総トークンスループットが着実に8.9kトークン/秒へと上昇します。対照的に、Holo2-8Bの総トークンスループットは5.1kトークン/秒で急速に頭打ちになります。この挙動はNemotronアーキテクチャの重要な強み、すなわちVRAMのより効果的で効率的な利用と、同じハードウェア上でのより大きな実効バッチサイズを可能にする総メモリフットプリントの小ささを浮き彫りにします。大規模なバッチサイズでも、Holotron-12Bは強力なスループットを維持します。

Training and Evaluating Holotron-12B

Holotron-12Bは2段階で訓練されました。NVIDIAが公表したマルチモーダルベースモデルであるNemotron-Nano-12B-v2-VL-BF16から開始しました。続いて、H社の独自のローカリゼーションとナビゲーションデータの混合に対して教師あり微調整を実施し、画面理解、グラウンディング、UIレベルの相互作用に焦点を当てました。

最終のチェックポイントは約140億トークンで訓練されました。

Agent Benchmarks

コンピュータ利用とナビゲーションのベンチマークにおいて、Holotron-12BはNemotronベースモデルを大きく上回る改善を示し、確立されたエージェントモデルとの高いパフォーマンスを発揮します。そのWebVoyagerのパフォーマンスは35.1%から80.5%へ向上し、ベンチマークにおけるHolo2-8Bのパフォーマンスを超え、エージェント的な設定で効果的に機能するモデルであることを示しています。

Localization Benchmarks

Holotron-12BはOS-World-G、GroundUI、WebClickなどのローカリゼーションとグラウンディングベンチマークでも、ベースのNemotronモデルよりも大幅に改善します。

\t \t\t \t \t \t\t結論 \t

Holotron-12B は、適切なトレーニング設定とインフラ作業と組み合わせることで、NVIDIA Nemotron VL モデルが実世界のマルチモーダルエージェントに対して強力な基盤を提供することを示しています。

このモデルは高いエージェント性能、推論スループットの大幅な向上、そして特に高解像度のビジョントレーニングを中心とした今後の改善の明確な道筋を提供します。

他の人々が Holotron-12B で何を構築するのかを楽しみにしています。モデルとチェックポイントは現在、Hugging Face で NVIDIA Open Model License の下に公開されています。

\t \t\t \t \t \t\tWhat’s next: Scaling the Future of Agentic Intelligence with Nemotron 3 Omni \t

NVIDIA announced today the release of Nemotron 3 Omni. Building on the success of Holotron-12B, we are preparing to post-train this next generation of multimodal models. By leveraging the enhanced hybrid SSM-Attention and MoE architectural foundations of the Nemotron 3 family, we aim to deliver even greater leaps in reasoning capabilities and multimodal precision with the newly announced Nemotron 3 Omni. As this evolution pushes Holotron beyond research and into a commercial application, it will provide enterprises with the high-throughput, low-latency performance required for massive-scale autonomous \"computer use\" deployments.

Community

EditPreview
テキスト入力欄へ画像、音声、動画をドラッグするか、貼り付けるか、または ここをクリック してアップロードします。
ここをタップまたは貼り付けて画像をアップロードします
Comment

· 新規登録 または ログイン してコメントする