AniMatrix：物理ではなく“アート”で考えるアニメ動画生成モデル

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

AniMatrix（arXiv:2605.03652v1）は、物理的なリアリティよりも芸術的な正しさを重視するアニメ特化の新しい動画生成モデルである。
生成にはデュアルチャネルの条件付けを採用しており、アニメの制作変数（スタイル、モーション、カメラ、VFX）を符号化するProduction Knowledge Systemと、画像からディレクティブを推定するAniCaptionが組み合わされる。
構造化された注入機構により、微細制御にはクロスアテンション、全体の強制にはAdaLNモジュレーションを用いて、カテゴリ指示が自由形式のテキストにより薄まらないようにしている。
学習はスタイル–モーション–変形カリキュラムと、変形を踏まえた選好最適化およびドメイン固有の報酬モデルによって導かれ、意図した表現と破綻を切り分ける。
人間評価ではプロのアニメーターが5つの制作次元で採点し、AniMatrixは4/5で1位となり、Seedance-Pro 1.0に比べてプロンプト理解や芸術的モーションで大きな改善を示したほか、モデル重みと推論コードを公開する予定だ。

要旨: 動画生成モデルは、その事前情報として物理的な現実感を内面化します。アニメは意図的に物理を破ります：にじみ、インパクトフレーム、ちび化したシフト、そして何千もの併存する芸術上の慣習があっても、モデルが吸収できる「アニメの物理学」は一つとして存在しません。物理バイアスのかかったモデルは、したがって、その媒体を定義する芸術性を平坦化するか、あるいは様式の多様性の下で破綻します。そこで本研究では、物理的な正しさではなく芸術的な正しさを狙う動画生成モデル、AniMatrixを提示します。これはデュアルチャネルの条件付け機構と、三段階の遷移によって実現されます：正しさを再定義し、物理の事前情報を上書きし、芸術と失敗を区別します。まず、生産知識システム（Production Knowledge System）がアニメを、制御可能な制作変数（Style, Motion, Camera, VFX）の構造化された分類体系として符号化し、AniCaptionが画素からこれらの変数を演出指示として推定します。学習可能なタグエンコーダは、この分類体系の「場-値」構造を保持しつつ、固定されたT5エンコーダが自由形式のナラティブを扱います。デュアルパスの注入（微細な制御のためのクロスアテンション、グローバルな強制のためのAdaLNモジュレーション）により、カテゴリ指示が開かれた文面によって希釈されることが決してないようにします。次に、スタイル-モーション-変形のカリキュラムが、モデルをほぼ物理に沿った動きから、アニメとしての完全な表現力へと段階的に移行させます。第三に、変形を意識した選好最適化と、ドメイン固有の報酬モデルにより、意図した芸術性と病的な崩壊を切り分けます。プロのアニメーターが制作の5次元にわたって評価する、アニメ特化の人的評価では、AniMatrixは5つのうち4つで1位となり、Seedance-Pro 1.0に対する最大の改善は、プロンプト理解（+0.70、+22.4パーセント）および芸術的モーション（+0.55、+16.9パーセント）です。AniMatrixのモデル重みと推論コードを公開します。