グローバルストリーミングサービスのNetflixは、ビデオからオブジェクトを削除しながら、それらが生み出す物理的相互作用を保持するように設計されたオープンソースフレームワークVOIDを発表し、従来のインペインティングやオブジェクト消去ツールで見られる制限に対処しました。
歴史的に、シーンからオブジェクトを削除することは簡単でしたが、その後環境が現実的に動作することを保証することは大きな課題でした。例えば、ギターを持っている人を削除すると、楽器が不自然に宙に浮いたままになり、プールからダイバーを削除すると、水が動かないままになることがあります。視覚効果チームは従来、このような問題を手動で修正してきましたが、これは1つのシーンに数日から数週間かかる時間のかかるプロセスです。
VOIDはVideo Object and Interaction Deletionの略で、これらの複雑さを解決することを目的としています。欠けているピクセルを単に埋めるだけの従来の方法とは異なり、このシステムはオブジェクトが削除された後のシーンの物理的に一貫性のある結果を予測します。
これを実現するために、複数の技術を組み合わせて活用しています。GoogleのGeminiがシーンを分析して削除の影響を受ける領域を特定し、MetaのSAM2が削除されるオブジェクトをセグメント化します。これらの出力は4つの値を持つマップであるquadmaskにエンコードされ、どの領域を消去するか、どれが重なるか、どれが物理的に影響を受けるか、どれがそのまま残るかを示します。その後、AlibabaのCogVideoX上に構築されたビデオ拡散モデルが、物理的にもっともらしい方法でシーンを再構築します。オプションの2回目のパスでは、光学フローを適用して初期再構築からの歪みを修正します。
VOIDのデモンストレーションは説得力のある結果を示しています:ホルダーが削除されると風船が自然に上昇し、無関係なブロックが削除されてもブロックは安定性を維持し、人が消去された後もプールの表面は影響を受けません。25人の参加者による人間の嗜好調査では、VOIDは64.8%の確率で支持され、主要な商業的代替案であるRunwayを上回りました。Runwayはわずか18.4%でした。
このリリースは、Netflix Researchが初めて公開するAIツールです。Apache 2.0でライセンスされているVOIDは商業的に使用でき、Hugging Faceでホストされています。ハードウェア要件により現在アクセスが制限されており、モデルを実行するには40GB VRAMのGPUが必要ですが、将来の最適化とインフラストラクチャコストの削減により、利用可能性が広がる可能性があります。VOIDは、単純な消去ツールから、シーンを理解し現実的に再構築できるシステムへと移行するビデオ制作技術の転換を表しており、プロフェッショナルなワークフローに重要な影響を与える開発です。
NetflixがVOIDを発表:物理的に一貫性のあるビデオオブジェクト除去のためのオープンソースフレームワークという記事は、Metaverse Postに最初に掲載されました。


