MeshLAM:フィードフォワード・ワンショットでアニメーション可能なテクスチャ付きメッシュアバター再構成

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • MeshLAMは、1枚の画像からワンショットで高精細かつアニメーション可能な3Dテクスチャ付きヘッドアバターを再構成するフィードフォワード方式の枠組みです。
  • 従来手法の高コストなテスト時最適化や多視点データの必要性を避けるため、共有トランスフォーマーバックボーンに基づくデュアル形状/テクスチャマップ構成を採用しています。
  • メッシュの崩壊を防ぎ、変形時のトポロジーの整合性を保つために、反復的なGRUベースのデコーダと、段階的なジオメトリ変形およびテクスチャ精緻化を組み合わせています。
  • さらに、投影(再投影)ベースのテクスチャ誘導機構により、外観学習を入力画像に結び付け、再構成テクスチャの一貫性を高めています。
  • 実験では、再構成品質、アニメーション性能、計算効率の各観点でMeshLAMが既存の最先端手法を上回ることが示されています。

Abstract

本稿では、1枚の画像から高精細でアニメーション可能な3Dヘッドアバターを生成する、ワンショットでアニメーション可能なメッシュヘッド再構成のためのフィードフォワード型フレームワークであるMeshLAMを提案します。従来研究が時間のかかるテスト時最適化や大規模な多視点データに依存していたのに対し、本手法は単一画像から1回の順伝播(ワンフォワードパス)で、固有のアニメーション可能性を備えた完全なメッシュ表現を生成します。本手法はデュアル形状およびテクスチャマップのアーキテクチャを用い、共有トランスフォーマーバックボーンから抽出した画像特徴をもとに、メッシュ頂点とテクスチャマップを同時に処理します。これにより、形状の彫り込み(shape carving)と外観モデリングを整合的に行います。フィードフォワード変形中にメッシュが崩壊するのを防ぎ、位相的な整合性を確保するために、段階的な幾何変形とテクスチャの洗練(リファイン)を伴う、反復型GRUベースのデコード機構を提案します。さらに、入力画像への外観学習を固定(アンカー)する、新しい再投影(reprojection)ベースのテクスチャガイダンス機構も併せて導入します。大規模な実験により、本手法が再構成品質、アニメーション能力、計算効率のいずれにおいても最先端手法を上回ることを示します。プロジェクトページ: https://meshlam.github.io.