Hugging Face におけるオープンソースの現状：2026年春版

Hugging Face Blog / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisIndustry & Market MovesModels & Research

原文を読む →

共有:

要点

2026年春版の State of Open Source on Hugging Face は、ハブ上のモデル数・データセット数・コミュニティの貢献の増加により、オープンソース機械学習エコシステムが引き続き拡大していることを強調している。
レポートは、オープンソースモデルの共有と利用を産業横断で形作るガバナンス、ライセンス、安全性ポリシーを検討している。
オープンソースモデルの開発・検証・デプロイを合理化する Hugging Face ライブラリのツールとインフラの進歩を指摘している。
本文は、再現性、ライセンスの明確さ、ベンチマーキングといった課題について論じ、より強い企業の導入とコミュニティ間の協力の拡大を予測している。

記事一覧へ戻る

Hugging Faceにおけるオープンソースの現状: 2026年春

チーム記事公開日 2026年3月17日

投票

+15

This post examines how the open source AI landscape has shifted across competition, geography, technical trends, and emerging communities over the past year. We primarily examine community activity on Hugging Face across many types of metrics to give a holistic view of the ecosystem.

この投稿は、過去1年間にわたり、競争、地理、技術トレンド、そして新興コミュニティを横断して、オープンソースAIの景観がどのように変化したかを検討します。私たちは主に Hugging Face 上のコミュニティ活動を、さまざまなタイプの指標を通じて検討し、エコシステム全体の総合的な見解を提供します。

この投稿は、2025年中頃に行われた以前の分析に基づいており、こちらで入手可能、Hugging Face コミュニティが何を構築しているかを検討しました。オープンソースエコシステムに関する追加の視点を、Data Provenance Initiative、Interconnects、OpenRouter and a16z、および MITとLinux Foundation から読むことをお勧めします。Hugging Face のエコシステムは分散しているため、分析は Hugging Face とコミュニティメンバーの作業の組み合わせであり、それぞれ適切にクレジットされます。

オープンソースAIエコシステムの活動は急速に拡大しており、ユーザー数、モデル、データセットリポジトリの数はほぼ倍増しています。2025年には Hugging Face は1100万人のユーザー、200万を超える公開モデル、50万を超える公開データセットへと成長しました。この成長は、オープンソースへの関心の高まり以上の意味を持ち、ユーザーが微調整モデル、アダプター、ベンチマーク、アプリケーションなどの派生物を作成するなど、積極的な参加へと移行していることを示しています。

Hugging Face からのデータ | Hugging Face の200万モデルとそれ以上: AI World が作成したグラフとストーリー

エコシステムは依然として高度に集中しています。Hugging Face 上のモデルの約半数は総ダウンロード数が200未満で、最もダウンロードされた上位200モデル、つまり全モデルの0.01%が全ダウンロードの約49.6%を占めています。

特定のドメイン、言語、問題領域を中心に特化したコミュニティが形成され、多くの場合、総ダウンロード数が控えめであっても関与と再利用が長期にわたり継続します。オープンソースAIは、単一の均質な市場というより、重なり合うサブエコシステムの集合として理解されるのが最良です。

競争におけるオープンソース

大手企業も小規模企業も、オープンソースの上に構築するケースが増えています。Fortune 500 の30％以上が現在 Hugging Face に検証済みアカウントを保有しています。スタートアップは、オープンモデルをデフォルトのコンポーネントとして頻繁に使用します：Thinking Machines はその Tinker モデルオプションを完全にオープンウェイトで構築しました、一方、人気の統合開発環境（IDE）である VSCode や Cursor はオープンとクローズドのモデルの両方をサポートします。 Airbnb のような確立された米国企業がオープンエコシステムへの関与を高めている、そして 2025年を通じて Hugging Face はより多くのレガシー企業の組織向けサブスクリプションのアップグレードを確認しています。

Big Tech 企業はしばしば Hugging Face Hub 上に新しいリポジトリを作成しています。並べて視覚化すると、リポジトリ成長の大幅な増加は時間とともに投資が進んでいることを示しています。NVIDIA が最も強力な貢献者として浮上しています。

Hugging Faceのデータ | ビッグテックはオープンソースAIに全力投入, AI Worldによるグラフとストーリー

より広く見たオープンソフトウェアの研究は、オープンアーティファクトから生み出される下流の価値が、それを生み出すコストを遥かに上回ることを示唆しています。AIにも同様の動きが現れており、オープンモデルは再利用され、適応され、数千の下流アプリケーションで特化化されています。閉じたシステムのみに依存する組織は、しばしばコストが高くなり、導入とカスタマイズの柔軟性が低下します。

オープンソースの地理

過去4年間の累積ダウンロードは、モデルの人気における明確な先行地域を示しています。米国と中国は歴史的にトップの貢献者であり、英国、ドイツ、フランスが二番手として人気です。地理的拠点がはっきりしない個人ユーザーや分散型組織が開発したモデルは、全プラットフォームのダウンロードの約半数を占めることがあります。

Hugging Faceのデータ | Longpre らの研究「オープン・インテリジェンスの経済学：モデルエコシステムにおける権力と参加の追跡」

オープンソースエコシステムの地理的構成は根本的に変化しました。Hugging Faceのデータは、中国が月間ダウンロード数および総ダウンロード数で米国を上回っていることを示しています。過去1年で、中国製モデルはダウンロードの最大割合を占めるか、41％を占めるようになりました。

Hugging Faceのデータとグラフ

業界の全体開発に対するシェアは、2022年以前のおよそ70%から、2025年には約37%へと低下しました。同時期には、独立または所属不明の開発者が全ダウンロードの17%から39%へと増加し、時には総利用量の半分以上を占めることもありました。個人および小規模な集団は、ベースモデルの量子化・適応・再配布に焦点を当ててきました。これらの仲介者は、一般的なユーザーが実行できる範囲と、イノベーションがエコシステム全体に広がる方法に、意味のある割合で影響を与えるようになっています。

Hugging Faceのデータ | Longpre らの研究「オープン・インテリジェンスの経済学：モデルエコシステムにおける権力と参加の追跡」

地域ごとに寄与の仕方は異なります。米国と西欧は、歴史的に大手産業ラボ（Google、Meta、OpenAI、Stability AI）を通じて支配してきましたが、中国はリリースと普及の両方で主導するようになっています。フランス、ドイツ、英国は研究機関、国家AIイニシアティブ、そして専門的なモデルファミリーを通じて貢献を続けています。さまざまな貢献者と組織形態を支えるエコシステムは、より広く採用されるアーティファクトを生み出す傾向があります。

Countries, Organizations, and Individual Users

スタートアップ企業からの人気モデルはより広く普及していました。競争力のある国はフランスと韓国でした。特に、新しいトレンドモデルを開発する上で4番目に人気の主体は組織ではなく個人のユーザーでした。ユーザーレベルで競争力のあるモデルを作成することは、これまでになく手頃になっています。

Hugging Faceのデータとグラフ

米国と中国の間

2025年に新たに作成されたモデルの大半は、中国で開発されたモデル、または中国で開発されたモデルを派生させたものです。最も人気のあるモデルは大規模組織によって開発され、主に米国と中国からのものでした。中国のAIエコシステムについて詳しく知るには、DeepSeek Moment以降の1年の変化を振り返る3部作をお読みください。1つは戦略的変化、アーキテクチャの変化、組織と未来です。

2025年、中国のAIエコシステムは、1月にDeepSeekのR1モデルが話題となるリリースを受けて、オープンソースへ強く舵を切りました。競争力のある中国の組織がモデルを公開する数と、Hugging Face上のリポジトリの数は急増しました。Baiduは2024年にはHubへのリリースがゼロでしたが、2025年には100を超えました。ByteDanceとTencentは、それぞれリリースを8〜9倍に増やしました。かつて閉じたアプローチを好んでいた組織（BaiduやMiniMaxを含む）は、オープンリリースへ決定的に転じました。

Hugging Faceのデータとグラフ

似たような数の人気のある米国の組織は、時間を通じて一貫してより多くのリポジトリを提供してきました。Metaとその元Facebook研究機関は、オープンリリースの重要な割合を占めており、Googleもそれほどではないものの同様にそうです。

データとグラフは Hugging Face から

互いに並ぶ中で、中国の人気組織間のリポジトリ成長の急激な上昇傾向が、重要な戦略的差異として浮かび上がっている。

データとグラフは Hugging Face から

グローバルなオープンソースと主権

オープンソースAIは、主権の問題にますます結びついています。オープンウェイトモデルは、政府や公的機関が国内データを用いて国内の法的枠組みの下でシステムを微調整できるようにします。国内ハードウェア上で展開できるモデルは、外国が管理するクラウドインフラへの依存を減らします。モデルのアーキテクチャ、トレーニングプロセス、評価に関する透明性は、規制審査と公的説明責任を支援します。主権へのオープンソースのアプローチについては、こちらをお読みください。

国家レベルでは、政府は行動を起こしています。韓国の国家主権AIイニシアチブ 2025年半ばに開始は国内の競争力のあるモデルを生み出すべく、国のチャンピオンとして LG AI Research、 SK Telecom、 Naver Cloud、 NC AI、そして Upstage を指名しました。2026年2月には韓国からの3つのモデルが Hugging Face Hub で同時にトレンド入りしました。2026年3月、韓国と米国のスタートアップ Reflection AI データセンター提携を発表し、最前線のオープンウェイトモデルを韓国にももたらしました。

スイスの Swiss AI イニシアチブや、EUの資金提供プロジェクトは、同様の優先事項を反映しています。英国の「公金は公的コード」という原則は、政府支援のAIイニシアチブのいくつかに影響を与えています。

Hugging Face トレンドページ 2026年2月

オープンソースとオープンウェイトAIへのこれらの投資は、すでに自国の成長しているAIトレーニングエコシステムを持つ国々に実を結んでいます。モデルとデータセットは通常、開発された地域で最もよく使われます; 開発者は言語を最もよく表し、同様の技術的および適用要件を反映するモデルをよく選ぶ傾向があります。

データとグラフは Hugging Face から

モデル人気

Hubで最もいいねされたモデルは、コミュニティの注目を集める指標として、モデルへの参照能力や一般的な人気の観点から語られます。この指標は必ずしも使用頻度を反映するものではありませんが、時間をかけて集まる注目は関心の信号を示すことがあります。1年の間に、最もいいねされたモデルは、MetaのLlamaファミリー由来の米国発モデルが中心だった時期から、中国のDeepSeek-R1がトップとなる国際的な混成へと移行しました。

データとグラフィックは Hugging Face から

論文と科学的貢献

科学的貢献の価値は多くの指標で測定できますが、Hubのアップボート機能は、大規模AI組織の論文がコミュニティのメンバーに広く評価されることを示しています。特に、最も多く投票された論文は大手組織のもので、米国と中国のものが大半です。トップ組織の大半は中国の大手テック企業であり、ByteDance は高影響度の論文を多数共有しています。

Hugging Face の Space | PaperVerse Explorer

Hugging Face の Daily Papers のうち、Hugging Face の AK がキュレーションした、モデルとデータセットの作成を参照し、オープンソースの採用が最も広く見られる論文のセットは、一般に多様です。顕著な結論として、医療関連の論文が影響力を持つ一方で、大手テックの影響力は希薄です。

データは Hugging Face から | AI Worldによる図と記事

派生モデル

コミュニティのメンバーがファインチューニング、マージ、またはその他の方法でモデルを構築する選択は、モデルの人気と使いやすさを反映しています。

アリババは組織として、GoogleとMetaの合計を超える派生モデルを有しており、Qwenファミリーは11万3千を超える派生モデルを占めています。Qwenにタグ付けされたすべてのモデルを含めると、その数は20万を超えます。

データとグラフは Hugging Face から

普及とアクセシビリティ

モデル開発は、スケールとともにアクセシビリティをますます重視しています。小型モデルは、非常に大規模なシステムよりもはるかに高い割合でダウンロードおよびデプロイされており、コスト、レイテンシ、ハードウェアの入手性といった現実的な制約を反映しています。

この小型モデルの優勢は、そのサイズで公開されるモデルがはるかに多いことも一因です。しかしこれを正規化しても、ATOM Projectの相対普及指標のデータは、1–9Bパラメータの上位10モデルの中央値が100Bを超えるモデルより約4倍多くダウンロードされることを示しています。

自動化システムとCIパイプラインは小型モデルのダウンロード数をさらに水増ししますが、小型でデプロイ可能なモデルへの傾向は現実のものです。

データは Hugging Face から | ATOMによるグラフと記事

オープンモデルへのエンゲージメントは、公開後ほぼ直後にピークを迎え、その後は緩やかに低下します。平均エンゲージメント期間は約6週間です。継続的な改善と頻繁な更新は関連性を維持するために重要となっています。DeepSeekの連続リリース（V3、R1、V3.2）は、挑戦者が現れても競争力を維持しました。開発を停滞させる組織は、頻繁な更新やドメイン特化のファインチューニングを行う組織に対して、急速に市場シェアを失いやすいです。

Hugging Face からのデータ | Choksi らによる『The Brief and Wondrous Life of Open Models』の図と研究

オープンモデルの平均サイズは、2023年の827Mパラメータから2025年には208億パラメータへと増加しました。これは主に量子化とエキスパート混成アーキテクチャによるものです。ただし中央値はごくわずかにしか増加せず、326Mから406Mパラメータへとわずかに上昇しました。この乖離は、高機能LLMユーザーが平均を引き上げる一方で、基盤となる小型モデルの利用は安定していることを示しています。

データは Hugging Face から | Longpre らによる『Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem』の図と研究

フロンティアモデルと小型システムの性能差は、ファインチューニングとタスク特異的適応によって、しばしば急速に狭まることがあります。Hub では、数億パラメータのモデルが検索、タグ付け、および文書処理ワークフローをサポートし、十億単位のモデルはコーディング、推論、マルチモーダルタスクに広く使用されています。その結果、主要なモデル開発者の多くは、さまざまなサイズのモデルを含むファミリーを公開しています。高性能な小型モデルの台頭は、自律性をエッジへと近づけ、中央集権的なクラウドプロバイダーへの依存を減らしています。

それでも、オープンソースのインフラ投資の問題は依然として緊急です。オープンモデルのトレーニングと提供が可能なデータセンターへの公的資金は、特に欧州と英国で増大する政策議論となっています。大規模なクローズドモデル企業が利用できる計算リソースと、オープンソースコミュニティが利用できるリソースとのギャップは、オープン開発で実現可能なものを形作り続けています。

サブコミュニティ: ロボティクス

ロボティクスは、Hugging Faceで最も急成長しているサブコミュニティの1つとして浮上しています。 数字は際立っています。ロボティクスデータセットは2024年の1,145件から2025年には26,991件へと増加し、わずか3年でHub内で最大のデータセットカテゴリへと躍進しました。比較として、テキスト生成は2番目に大きなカテゴリで、2025年には約5,000のデータセットしかありませんでした。

Hugging Face のデータ | AI Worldによるグラフとストーリー

コミュニティの寄与データセットは、家庭内の操作タスクから自動運転に至るまで、あらゆる分野に及びます。空間知能の最大のマルチモーダルデータセットである Learning to Drive（L2D）は、LeRobotとYaakの共同作業を通じて公開されました。RoboMIND のようなデータセットは、107,000を超える実世界の軌跡を、479の異なるタスクと複数のロボットの実装形態にまたがって提供し、一般化可能なロボットポリシーを訓練するのに必要な規模と多様性を提供します。

Hugging Face の Pollen Robotics の買収は、オープンソースのロボット販売を産業界と学術研究機関だけでなく、日常の趣味者にも開放しました。 LeRobot、Hugging Face のオープンソースロボティクスライブラリは、PyTorch での実世界ロボティクス用のモデル、データセット、ツールを提供し、模倣学習、強化学習、視覚言語行動モデルをカバーしており、急速に成長しました。過去1年で、その GitHub のリポジトリのスターはほぼ3倍になりました。

GitHub からのデータ | グラフィックは star-history.com

サブコミュニティ: 科学のためのAI

科学研究は、特に活発な分野のひとつとなっています。オープンモデルとデータセットは、タンパク質折りたたみ、分子動力学、創薬、および科学データ解析において、ますます広く使われています。 すべての最先端AI企業には専任の科学チームが存在しますが、現在の焦点の多くは文献探索に留まり、直接的な実験には及んでいません。

Hugging Face の Space | Science Release ヒートマップ

コミュニティ主導のプロジェクトは、共通の研究目標を中心に形成され、しばしば< a href="https://huggingface.co/hugging-science">数百の貢献者が組織や分野を横断して活動しています。これらの取り組みは、オープンソースが、大規模で学際的な作業を、従来の学術機関や企業の枠組みだけでは組織し難い作業を調整する仕組みとして果たす役割を浮き彫りにします。

今後の展望

オープンソースAIエコシステムは、グローバルな参加、技術的専門化、機関の採用の組み合わせを通じて進化を続けています。次のフェーズを定義するいくつかの傾向があるでしょう。

地理的な権力の再配分は加速しています。西洋の組織は中国モデルの商業的な代替を求める傾向を強めており、OpenAIのGPT-OSS、AI2のOLMo、GoogleのGemmaといった取り組みを通じて、米国および欧州の開発者から競争力のあるオープンオプションを提供する動きが急を要しています。これらの取り組みがQwenとDeepSeekの採用ペースに追いつけるかは、2026年の定義的な問題となるでしょう。

ロボティクスと科学のサブコミュニティの成長は、オープンソースAIが言語生成や画像生成を超え、物理的・実験的領域へ拡大していることを示唆しています。テキストと画像モデルの周辺で発展したインフラ、規範、協調メカニズムは、新しいモダリティとユースケースに適応されています。

研究者、開発者、企業、政府にとって、オープンソースはAIシステムを構築・評価・統治するための基盤的層のままです。エージェントの展開が進むにつれて、オープンソースとその相互運用性は、エージェントが繁栄する鍵となるでしょう。過去1年間の軌道は一つのことを明らかにします。オープンソースエコシステムはAIの開発・適応・展開の実務の多くが行われる場所であり、その影響は広いAIの動向へと拡大し続けています。

Hugging Face コミュニティの皆さまには、AIエコシステムの基盤を築き続けていただいていることに感謝します 🤗

すみません、このHTMLは長く、data-props に含まれる英語テキストも多いため、正確な JSON 出力として一度に全て翻訳するには分割して処理するのが安全です。全体を一括で翻訳しますか、それともセクションごとに分けて翻訳しますか？

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

Hugging Face におけるオープンソースの現状：2026年春版

要点

Hugging Faceにおけるオープンソースの現状: 2026年春

競争におけるオープンソース

オープンソースの地理

Countries, Organizations, and Individual Users

米国と中国の間

グローバルなオープンソースと主権

モデル人気

論文と科学的貢献

派生モデル

普及とアクセシビリティ

サブコミュニティ: ロボティクス

サブコミュニティ: 科学のためのAI

今後の展望

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer