広告

Holo3:コンピュータ利用のフロンティアを突破する

Hugging Face Blog / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 記事「Holo3: Breaking the Computer Use Frontier」では、Holo3を、ソフトウェア/GUI環境を使ってタスクを完了させる、より能力の高いAI「コンピュータ利用」を実現するための飛躍として位置づけています。
  • 本作業は、AIシステムがコンピュータとの現実世界のインタラクション・ループの中で何ができるかを前進させ、使いやすさやタスク完了における従来の制約を超えることを目指す枠組みとして示されています。
  • この記事は2026年4月1日に公開されたチーム記事として提示されており、チュートリアルというよりは研究/アップデートのためのコミュニケーションとして機能していることが示唆されます。
  • 全体として、エージェント型/対話型コンピューティング能力の進展が強調されており、ナビゲーション、クリック、ソフトウェア操作を含むワークフローにおいてAIアシスタントを実用展開する可能性を広げます。

Holo3: コンピューター利用のフロンティアを切り拓く

チーム 記事 2026年4月1日 公開

画像

私たちはHolo3を発表できることを誇りに思います。これは自律型エンタープライズに向けたビジョンの最新の進化です。OSWorld-Verifiedベンチマークで78.85%のスコアを達成したHolo3-122B-A10Bは、デスクトップコンピュータ利用ベンチマークにおいて、業界に新たな最先端の基準を打ち立てます。

Holo3は単なるベンチマークのリーダーではありません。実運用のために設計されています。私たちのエージェント型フライホイールを用いて構築され、合成のエンタープライズ環境内で現実世界のワークフローを実行できるように学習されています。これにより、Holo3が今日のビジネスシーンで優れた性能を発揮できるだけでなく、私たちのエージェントがほぼあらゆるデジタル環境を自律的にナビゲートできる未来に向けた土台が築かれます。

さらに、Holo3は10Bのアクティブ・パラメータ(総計122B)だけでこれを実現しています。そのため、GPT 5.4やOpus 4.6のような大規模な専用モデルに比べてコストはごく一部です。すべてのモデルは、私たちのInference APIから利用可能です。Holo3-35B-A3Bの重みは、Apache2ライセンスのもとでHugging Faceでオープンに利用でき、さらに無料プランを通じて私たちの推論API経由でも自由に利用できます。

エージェント型学習フライホイール

Holo3を際立たせているのは、その専門化された学習パイプライン――2つの中核となるエージェント型の柱である知覚意思決定を鍛え上げるための、継続的なフィードバック・ループです。

私たちの学習フライホイールは、注釈付きの例から、特定のタスクを実行する方法をモデルに教えることにあります。その一方で、ほぼ無限に近い多様なユーザーインターフェースにまたがって汎用的なスキルも育てます。ここでは、私たちがどのように“世界トップレベル”のコンピュータ利用モデルを構築するのかを紹介します:

  • 合成ナビゲーションデータ: 人手および生成した指示を用いて、シナリオ固有のナビゲーション例を生成します。

  • ドメイン外データの拡張: シナリオをプログラム的に拡張し、データを補強することで、Holo3が想定外の事態にも対応できるようにします。

  • 厳選された強化学習: すべてのデータサンプルは慎重に厳選され、高度なデータフィルタリングと強化学習を活用するパイプラインを通じて取り込まれ、性能を最大化します。

生のスコアを超えて、OSWorldの結果は、この学習フライホイールに関する決定的なコンセプト実証(PoC)として機能します。これが現実のビジネスアプリケーションへ転用できるかを検証するために、私たちは合成環境ファクトリー(Synthetic Environment Factory)を作成しました。

合成環境ファクトリー & H コーポレート・ベンチマーク

この独自のファクトリーは、エンタープライズシステムの現実を再現しており、Holo3が創られる過程で鍛えられたトレーニングジムの1つです。環境は、シナリオ仕様に基づいて、コーディングエージェントがゼロからWebサイトをプログラムすることで自動的に構築されます。これにより、検証スクリプトによってエンドツーエンドで検証可能な、難易度の異なるタスクが生成されます。

現実世界での準備度を測るために、私たちはさらに H コーポレート・ベンチマーク も設計しました。これは、Eコマース、ビジネスソフトウェア、コラボレーション、そしてさまざまなマルチアプリ構成にまたがる4カテゴリの、486のマルチステップからなる専用の評価スイートです。

ベンチマークは、複雑性の全スペクトラムをカバーします。特定の1つのアプリケーションに集中するタスクから、実際に仕事が進む様子を写し取る長期・複数アプリのワークフローまでです。スケールの難しい側(マルチアプリ)では、タスクにおいてエージェントは複数のシステムにまたがって同時に情報を調整する必要があります。たとえば、PDFから機器の価格を取得し、それを各従業員の残り予算と照合し、そのうえで、各個人に対して個別化された承認/却下のメールを自律的に送信します。この種のタスクでは、正確な計算やドキュメント解析だけでなく、状態や意図を失うことなく、複数のアプリケーションにまたがる持続的なマルチステップ推論が求められます。

トレーニングのためにHolo3が作成した合成環境の例 image

以下の結果を見ると、Holo3が単一アプリケーションのベンチマークで競合を上回っていることが分かります。Holo3とベースとなるQwen3.5モデルの性能差は、私たちのエージェント型学習の「飛び車輪(flywheel)」の効果を反映しています。大幅にパラメータ数の多いモデルよりも高い成功率を達成しながら、同じローカライゼーションおよびグラウンディングの基準を維持できたことにより、Holo3は、この専門的なトレーニングが持つ真のインパクトの大きさを示しています。

image

ユニバーサル・エージェンシーに向けて

Holo3はマイルストーンですが、ゴールではありません。私たちは、クライアントのデジタル・プラットフォームの中で「見る」「考える」「行動する」ことができるシステムを構築することで、自律型エンタープライズ(Autonomous Enterprise)を現実のものにします。

私たちの「合成環境ファクトリー」が進化し続ける中で、エージェントはますます複雑なタスクを扱えるよう学習しています。今日のHolo3はインターフェースを習得しつつありますが、私たちはすでに次のフロンティアに取り組んでいます。それが アダプティブ・エージェンシー です。ここでは、私たちのモデルは既知のツールを使うだけでなく、まったく新しい、個別に用意されたエンタープライズソフトウェアをリアルタイムで自律的にナビゲートするための学習を行います。

本記事で言及されているモデル 1

コミュニティ

編集プレビュー
テキスト入力欄にドラッグして画像、音声、動画をアップロードするか、貼り付けるか、ここをクリックしてください。
ここをタップまたは貼り付けて画像をアップロード
コメント

· 登録 または ログインしてコメント

この記事で言及されているモデル 1

広告