あらゆる画像をプレイ可能なゲームに変える深層ニューラルネットワーク:消費者向けGPUのみで動作(データセンター不要)

Reddit r/artificial / 2026/5/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この記事では、入力画像からゲームのような“プレイ可能”な動画シーケンスを生成でき、データセンターではなく消費者向けGPUでのリアルタイム推論を目指す深層ニューラルネットワークが紹介されています。
  • 著者は「コアのデノイズ(noiser)ネット」を、画像からゲームデータへの学習により、微調整(fine-tuning)に頼らずスクラッチから学習したと主張しています。
  • モデルはLLMと同様の因果(causal)方式のTransformer風アーキテクチャで、小型であると説明されており、KVキャッシュを用いた自己回帰デコードでフレーム間の効率化を可能にしています。
  • RTX 5090上で動かした約0.4Bパラメータ版の初期デモでは、動きの弱さ、ちらつき(フラッシュ)といったアーティファクト、文脈(context)に関する問題などが指摘されています。
  • システムはリアルタイムのキーボード操作をフォワードパスに反映でき、現在はより大きい0.8B版の学習を進めている一方、量子化は未実施でbf16が遅いと述べています。
任意の画像をプレイ可能なゲームに変えるディープニューラルネットワーク!コンシューマーGPUのみで、データセンターではありません

みなさんこんにちは!!私は今取り組んでいる研究をぜひ共有したくて。

ゲームをシミュレートできる nn を作りたかったのです、少なくともそれを始めたいと思っていました。

ほとんどの動画生成モデルは大きすぎて、リアルタイムでコンシューマー向けのハードウェア上で動かせません。そこで、私は最初からそれを実現するモデルを設計しました。微調整のごちゃごちゃしたやつとかは一切なしです。

中核となる de-noiser ネットワークは、この目的をサポートするために、最初から最終まで完全にトレーニングされています。画像からゲームデータへ。

上の動画は RTX 5090 上で動かしたものです。

その nn は小型の Transformer に似たモデルで、LLM と同じように因果的に動作します。

それにより、これまでのすべての情報を KV キャッシュし、生成したい新しい各フレームごとに簡単な自己回帰デコードのフォワードパスを行えます。

共有した動画では、モデルは 0.4B のバリアントで、動きがうまくないことや、妙なフラッシュが出るなど、いくつかの重大な問題があります。さらに文脈の問題もあります。

それは、私がリアルタイムで与えるキーボード操作を取り込み、その入力をフォワードパスで活用しています。(ただし classifier free guidance はありません)

次の反復をトレーニング中です。現在は 0.8B モデルです。

ちなみに、まだ量子化はしていません。量子化すれば、さらにかなり時間を節約できるはずです。bf16 は遅いので。

submitted by /u/lucidml_lover
[リンク] [コメント]