概要と1. はじめに
関連研究
2.1. スパース入力からのモーション再構築
2.2. 人間のモーション生成
SAGE:階層化されたアバター生成と3.1. 問題の定義と表記
3.2. 分離されたモーション表現
3.3. 階層化されたモーション拡散
3.4. 実装の詳細
実験と評価指標
4.1. データセットと評価指標
4.2. 定量的および定性的結果
4.3. アブレーション研究
結論と参考文献
\ 補足資料
A. 追加のアブレーション研究
B. 実装の詳細
スパース観測から人体の全身モーションを再構築するタスクは、近年の研究コミュニティで大きな注目を集めています[1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]。例えば、最近の研究[16, 19, 46, 50, 51]は、6つの慣性計測ユニット(IMU)から全身モーションを再構築することに焦点を当てています。SIP [46]はヒューリスティック手法を採用し、DIP [16]はこのタスクにディープニューラルネットワークの使用を先駆けました。PIP [51]とTIP [19]は物理的制約を組み込むことでパフォーマンスをさらに向上させています。VR/ARアプリケーションの台頭により、研究者たちはVR/ARデバイス、特にヘッドマウントデバイス(HMD)からの全身モーション再構築に注目するようになりました。これらは、ユーザーの頭と手に関する情報のみを提供するため、さらなる課題をもたらします。LoBSTr [49]、AvatarPoser [18]、AvatarJLM [54]はこのタスクを回帰問題として取り組み、GRU [49]とTransformerネットワーク[18, 54]を活用して、HMDのスパース観測から全身ポーズを予測します。別の手法では生成モデル[5, 7, 10, 11]を採用しています。例えば、VAEHMD [10]とFLAG [5]はそれぞれ変分オートエンコーダ(VAE)[20]と正規化フロー[35]を利用しています。最近の研究[7, 11]はより強力な拡散モデル[15, 38]をモーション生成に活用し、拡散モデルの全身モーションの条件付き確率分布のモデリング能力の高さにより、有望な結果を生み出しています。
\ 全身モーションを包括的で統一されたフレームワークでモデル化する以前の手法とは対照的に、私たちのアプローチは、そのような手法がディープラーニングモデルに課す複雑さ、特に人間のモーションの複雑な運動学を捉える上での複雑さを認識しています。そのため、私たちは従来の全身アバター再構築パイプラインを分離する階層的アプローチを提案します。まず上半身に対して、次に上半身の条件下で下半身に対して行います。
\
:::info 著者:
(1) Han Feng、同等の貢献、武漢大学からアルファベット順;
(2) Wenchao Ma、同等の貢献、ペンシルバニア州立大学からアルファベット順;
(3) Quankai Gao、南カリフォルニア大学;
(4) Xianwei Zheng、武漢大学;
(5) Nan Xue、アントグループ(xuenan@ieee.org);
(6) Huijuan Xu、ペンシルバニア州立大学。
:::
:::info この論文はarxivで入手可能であり、CC BY 4.0 DEEDライセンスの下で公開されています。
:::
\


