| みなさんこんにちは!!私は今取り組んでいる研究をぜひ共有したくて。 ゲームをシミュレートできる nn を作りたかったのです、少なくともそれを始めたいと思っていました。 ほとんどの動画生成モデルは大きすぎて、リアルタイムでコンシューマー向けのハードウェア上で動かせません。そこで、私は最初からそれを実現するモデルを設計しました。微調整のごちゃごちゃしたやつとかは一切なしです。 中核となる de-noiser ネットワークは、この目的をサポートするために、最初から最終まで完全にトレーニングされています。画像からゲームデータへ。 上の動画は RTX 5090 上で動かしたものです。 その nn は小型の Transformer に似たモデルで、LLM と同じように因果的に動作します。 それにより、これまでのすべての情報を KV キャッシュし、生成したい新しい各フレームごとに簡単な自己回帰デコードのフォワードパスを行えます。 共有した動画では、モデルは 0.4B のバリアントで、動きがうまくないことや、妙なフラッシュが出るなど、いくつかの重大な問題があります。さらに文脈の問題もあります。 それは、私がリアルタイムで与えるキーボード操作を取り込み、その入力をフォワードパスで活用しています。(ただし classifier free guidance はありません) 次の反復をトレーニング中です。現在は 0.8B モデルです。 ちなみに、まだ量子化はしていません。量子化すれば、さらにかなり時間を節約できるはずです。bf16 は遅いので。 [リンク] [コメント] |
あらゆる画像をプレイ可能なゲームに変える深層ニューラルネットワーク:消費者向けGPUのみで動作(データセンター不要)
Reddit r/artificial / 2026/5/30
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この記事では、入力画像からゲームのような“プレイ可能”な動画シーケンスを生成でき、データセンターではなく消費者向けGPUでのリアルタイム推論を目指す深層ニューラルネットワークが紹介されています。
- 著者は「コアのデノイズ(noiser)ネット」を、画像からゲームデータへの学習により、微調整(fine-tuning)に頼らずスクラッチから学習したと主張しています。
- モデルはLLMと同様の因果(causal)方式のTransformer風アーキテクチャで、小型であると説明されており、KVキャッシュを用いた自己回帰デコードでフレーム間の効率化を可能にしています。
- RTX 5090上で動かした約0.4Bパラメータ版の初期デモでは、動きの弱さ、ちらつき(フラッシュ)といったアーティファクト、文脈(context)に関する問題などが指摘されています。
- システムはリアルタイムのキーボード操作をフォワードパスに反映でき、現在はより大きい0.8B版の学習を進めている一方、量子化は未実施でbf16が遅いと述べています。




