究極リスト:コーディング/チャット/ビジョン/オーディオなどに最適なオープンモデル

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • この記事は、コーディングやチャット、ビジョン、オーディオなどの用途別に整理された「究極リスト」として、推奨するオープンソースAIモデルを紹介している。
  • 音声生成の領域では、Qwen3-TTSを品質と速度のバランスが良いモデルとして、CosyVoiceを多言語ストリーミングに強いモデルとして、VibeVoice Realtimeをリアルタイム用途向けとして挙げている。
  • 声のクローン作成や音楽生成のための専用モデルとして、VoxCPM2/IndexTTS2/Kokoro(KokoClone)などや、ACE-Step 1.5/Magenta Realtime/Uni-MoEが紹介されている。
  • anything→audioのマルチモーダル音声や音声強化については、Audio-Omni(AudioX)やMMAudio、修復・インペインティング向けのNVIDIA A2SB、アップスケールと強化のAudioSR(NovaSR)が取り上げられている。
  • 音声認識(ASR)では、多言語ストリーミングに強いFunASR、リアルタイム性能のVibeVoice-ASR、クリーンで信頼性の高い文字起こしとしてCohere Transcribeが挙げられている。

オープンソースAIはとんでもない速さで進化していますが、各ユースケースで実際にどのモデルが最適なのかを把握するのは難しいです。そこで、カテゴリごとに最高のオープンソースモデルの一覧をまとめました

ベスト音声生成オープンソースモデル

テキスト・トゥ・スピーチ(TTS)

ボイスクローン

音楽生成

マルチモーダル音声(Anything → Audio)

音声強化

音声認識(ASR)

ベスト画像生成オープンソースモデル

FLUX.1 [schnell]

コンシューマー向けGPUに向け、品質と速度のバランスを最速で両立するオープンソースモデル。

FLUX.1 [dev]

Black Forest Labsが生み出す高忠実度の複雑なシーンにおけるベンチマークのトップリーダー。

Stable Diffusion 3.5 Large

ファインチューニングや編集ワークフローのための汎用エコシステムの王者。

GLM-Image

Apache 2.0のもとで、バイリンガルのインフォグラフィックに強いタイポグラフィ専門。

Qwen-Image-2512

クリエイティブなスタイル転写向けの多言語編集パワーハウス。

Z-Image-Turbo

エッジ用途・バッチ用途向けの軽量6Bリアルタイムジェネレーター。

HiDream-I1-Full

プレミアムな高解像度出力に対応する生のフォトリアリズムの専門家。

SANA-Sprint 1.6B

素早い実験のための、超効率かつ低VRAMオプション。

HunyuanImage-3.0

高度な整合性と多様性のための研究グレード。

ベスト画像から動画への生成オープンソースモデル

LTX-2.3

ネイティブ4K 50fpsと同期オーディオ対応を備えた、最先端のオープンソースImage-to-Videoモデル https://huggingface.co/Lightricks/LTX-2.3

LTX-2.3-GGUF

コンシューマー向けハードウェアで効率的に推論するための、21Bパラメータの量子化LTX-2.3バリアント https://huggingface.co/unsloth/LTX-2.3-GGUF

LTX-2.3-Workflows

LTX-2.3の動画生成パイプライン向けに最適化されたComfyUIワークフロー https://huggingface.co/RuneXX/LTX-2.3-Workflows

WAN2.2-14B-Rapid-AllInOne

MoEアーキテクチャを備えた、高速ローカル実行向けの急速オールインワン14B Image-to-Videoモデル https://huggingface.co/Phr00t/WAN2.2-14B-Rapid-AllInOne

VBVR-LTX2.3-diffsynth

LTX-2.3向けのdiffsynth統合により、高度な動画合成エフェクトを可能にする https://huggingface.co/Video-Reason/VBVR-LTX2.3-diffsynth

BFS-Best-Face-Swap-Video

リアルな動画でのキャラクター置換のために特化したLTXフェイススワップモデル https://huggingface.co/Alissonerdx/BFS-Best-Face-Swap-Video

Wan2.2-I2V-A14B-GGUF

ミドルレンジGPU向けに480p/720pのImage-to-Videoを行う14B量子化Wan2.2 https://huggingface.co/QuantStack/Wan2.2-I2V-A14B-GGUF

LTX-2

商用向け動画生成でコミュニティに強く採用された、前身のLTXバージョン https://huggingface.co/Lightricks/LTX-2

LTX-2.3-Transition-LORA

LTX-2.3の動画におけるシーン遷移をスムーズにするLoRAファインチューニング https://huggingface.co/valiantcat/LTX-2.3-Transition-LORA

HY-OmniWeaving

TencentのマルチモーダルなImage-to-Videoで、多彩なスタイルのウェービング機能を備える https://huggingface.co/tencent/HY-OmniWeaving

ベスト画像からテキスト生成オープンソースモデル

GLM-OCR

複雑なドキュメントに対して速度と精度を両立する、2026年のトップクラスのオープンソースOCRモデル https://huggingface.co/zai-org/GLM-OCR

nemotron-ocr-v2

NVIDIAの高精度OCRは、シーン文字と多言語認識において優れています https://huggingface.co/nvidia/nemotron-ocr-v2

Falcon-OCR

TII UAEによる、さまざまな条件での現実世界の文字抽出に対応した効率的なOCR https://huggingface.co/tiiuae/Falcon-OCR

RationalRewards-8B-T2I

テキストから画像への評価とキャプション作成に特化した9Bリワードモデル https://huggingface.co/TIGER-Lab/RationalRewards-8B-T2I

RationalRewards-8B-Edit

画像編集フィードバックや記述タスク向けに最適化された9Bバリアント https://huggingface.co/TIGER-Lab/RationalRewards-8B-Edit

HiVG-3B-Base

画像とテキストの正確なアライメントおよび説明のための4B視覚グラウンディングモデル https://huggingface.co/xingxm/HiVG-3B-Base

trocr-base-handwritten

手書き文字の正確な文字起こしのためのMicrosoftのTrOCR base https://huggingface.co/microsoft/trocr-base-handwritten.

blip-image-captioning-large

詳細で高品質な画像キャプション作成のためのSalesforce BLIP large https://huggingface.co/Salesforce/blip-image-captioning-large.

manga-ocr-base

日本の漫画およびコミックのテキスト抽出に特化したOCR https://huggingface.co/kha-white/manga-ocr-base.

blip-image-captioning-base

汎用の画像からテキストへのキャプション作成のための効率的なBLIP baseモデル https://huggingface.co/Salesforce/blip-image-captioning-base.

最高のテキスト生成オープンソースモデル

GLM-5.1

Zhipu AIによるフラッグシップ744B MoE(40Bアクティブ)。エージェント型エンジニアリングと長期ホライズンのコーディングタスクで先行 https://huggingface.co/zai-org/GLM-5.1

Qwen3.5-397B-A17B

Alibabaの397B MoE(17Bアクティブ)。マルチモーダル推論と、用途の広いエージェント向けの1M+トークン文脈 https://huggingface.co/Qwen/Qwen3.5-397B-A17B

Gemma 4

Googleのハイブリッド注意(2B-31B)ファミリー。推論、コーディング、そして端末上でのマルチモーダル利用に優れる https://huggingface.co/google/gemma-4-31b-it

DeepSeek-V3.2

スパース注意による推論重視のMoE。効率的なロングコンテキストのエージェントとGPT-5レベルの数学 https://huggingface.co/deepseek-ai/DeepSeek-V3.2

Kimi-K2.5

Moonshotの1T MoE(32Bアクティブ)マルチモーダルモデル。ビジュアルコーディングと最大100のサブエージェントからなるエージェント・スウォーム向け https://huggingface.co/moonshotai/Kimi-K2.5

MiniMax-M2.7

自己改善型のエージェント型LLM。実環境のソフトウェアエンジニアリングのワークフローでSWE-Proベンチマークを上回る https://huggingface.co/MiniMaxAI/MiniMax-M2.7

MiMo-V2-Flash

Xiaomiの効率的な309B MoE(15Bアクティブ)。高ボリュームのコーディングエージェント向けに150 t/sのスループット https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

投稿者: /u/techlatest_net
[リンク] [コメント]