あらゆる画像をプレイ可能なゲームに変える深層ニューラルネットワーク：消費者向けGPUのみで動作（データセンター不要）

Reddit r/artificial / 2026/5/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

この記事では、入力画像からゲームのような“プレイ可能”な動画シーケンスを生成でき、データセンターではなく消費者向けGPUでのリアルタイム推論を目指す深層ニューラルネットワークが紹介されています。
著者は「コアのデノイズ（noiser）ネット」を、画像からゲームデータへの学習により、微調整（fine-tuning）に頼らずスクラッチから学習したと主張しています。
モデルはLLMと同様の因果（causal）方式のTransformer風アーキテクチャで、小型であると説明されており、KVキャッシュを用いた自己回帰デコードでフレーム間の効率化を可能にしています。
RTX 5090上で動かした約0.4Bパラメータ版の初期デモでは、動きの弱さ、ちらつき（フラッシュ）といったアーティファクト、文脈（context）に関する問題などが指摘されています。
システムはリアルタイムのキーボード操作をフォワードパスに反映でき、現在はより大きい0.8B版の学習を進めている一方、量子化は未実施でbf16が遅いと述べています。

任意の画像をプレイ可能なゲームに変えるディープニューラルネットワーク！コンシューマーGPUのみで、データセンターではありません

みなさんこんにちは！！私は今取り組んでいる研究をぜひ共有したくて。

ゲームをシミュレートできる nn を作りたかったのです、少なくともそれを始めたいと思っていました。

ほとんどの動画生成モデルは大きすぎて、リアルタイムでコンシューマー向けのハードウェア上で動かせません。そこで、私は最初からそれを実現するモデルを設計しました。微調整のごちゃごちゃしたやつとかは一切なしです。

中核となる de-noiser ネットワークは、この目的をサポートするために、最初から最終まで完全にトレーニングされています。画像からゲームデータへ。

上の動画は RTX 5090 上で動かしたものです。

その nn は小型の Transformer に似たモデルで、LLM と同じように因果的に動作します。

それにより、これまでのすべての情報を KV キャッシュし、生成したい新しい各フレームごとに簡単な自己回帰デコードのフォワードパスを行えます。

共有した動画では、モデルは 0.4B のバリアントで、動きがうまくないことや、妙なフラッシュが出るなど、いくつかの重大な問題があります。さらに文脈の問題もあります。

それは、私がリアルタイムで与えるキーボード操作を取り込み、その入力をフォワードパスで活用しています。（ただし classifier free guidance はありません）

次の反復をトレーニング中です。現在は 0.8B モデルです。

ちなみに、まだ量子化はしていません。量子化すれば、さらにかなり時間を節約できるはずです。bf16 は遅いので。

submitted by /u/lucidml_lover
[リンク] [コメント]

チューリング、E2E自動運転で公道走行パラメーター数20億に、VLAでは「国内初」

日経XTECH

中外製薬、抗体特化のプロテインAI独自開発アステラスは拡散モデルに着目

日経XTECH

OpenJarvis 登場、Ollama 対応のローカルファーストAI─スタンフォード発「Intelligence Per Watt」の挑戦

Innovatopia

AIブログ執筆バトル：ChatGPT vs. Claude vs. Doubao vs. Qwen vs. Gemini vs. SEONIB

Dev.to

TerpreT：プログラム・インダクションのための確率的プログラミング言語の概要

Dev.to

あらゆる画像をプレイ可能なゲームに変える深層ニューラルネットワーク：消費者向けGPUのみで動作（データセンター不要）

要点

関連記事

チューリング、E2E自動運転で公道走行パラメーター数20億に、VLAでは「国内初」

中外製薬、抗体特化のプロテインAI独自開発アステラスは拡散モデルに着目

OpenJarvis 登場、Ollama 対応のローカルファーストAI─スタンフォード発「Intelligence Per Watt」の挑戦

AIブログ執筆バトル：ChatGPT vs. Claude vs. Doubao vs. Qwen vs. Gemini vs. SEONIB

TerpreT：プログラム・インダクションのための確率的プログラミング言語の概要

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

チューリング、E2E自動運転で公道走行 パラメーター数20億に、VLAでは「国内初」

中外製薬、抗体特化のプロテインAI独自開発 アステラスは拡散モデルに着目

OpenJarvis 登場、Ollama 対応のローカルファーストAI─スタンフォード発「Intelligence Per Watt」の挑戦

AIブログ執筆バトル：ChatGPT vs. Claude vs. Doubao vs. Qwen vs. Gemini vs. SEONIB

TerpreT：プログラム・インダクションのための確率的プログラミング言語の概要

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

チューリング、E2E自動運転で公道走行パラメーター数20億に、VLAでは「国内初」

中外製薬、抗体特化のプロテインAI独自開発アステラスは拡散モデルに着目