概要と1 はじめに
関連研究
2.1. ビジョンと言語によるナビゲーション
2.2. セマンティックシーン理解とインスタンスセグメンテーション
2.3. 3Dシーン再構築
方法論
3.1. データ収集
3.2. 画像からのオープンセットセマンティック情報
3.3. オープンセット3D表現の作成
3.4. 言語ガイドナビゲーション
実験
4.1. 定量的評価
4.2. 定性的結果
結論と今後の課題、開示声明、および参考文献
このセクションでは、O3D-SIMを採用したビジョン・言語ナビゲーション(VLN)手法のパイプラインについて説明します。まず提案するパイプラインの概要から始め、その構成ステップの詳細な分析を提示します。方法論の初期段階では、RGB-D画像のセットと外部および内部カメラパラメータからなるデータ収集を行い、これをまず概説します。その後、オープンセット3Dセマンティックインスタンスマップの作成に移ります。このプロセスは主に2つの段階に分かれています:最初に、画像からオープンセットセマンティックインスタンス情報を抽出します。次に、収集したオープンセット情報を使用して3Dポイントクラウドをオープンセット3Dセマンティックインスタンスマップに整理します。議論の最後の部分では、VLNモジュールに焦点を当て、その実装と機能について説明します。
\ O3D-SIM作成のパイプラインは図2に示されています。O3D-SIM作成の最初のステップは、セクション3.2で説明されているように、入力画像のRGBシーケンスからオープンセットセマンティックインスタンス情報を抽出することです。この情報には、各オブジェクトインスタンスについて、マスク情報とCLIP [9]およびDINO [10]の埋め込み特徴で表されるセマンティック特徴が含まれます。セクション3.3で説明されている2番目のステップでは、このオープンセットセマンティックインスタンス情報を使用して、入力3Dポイントクラウドをオープンセットセマンティック3Dオブジェクトマップにクラスタリングします(図2および3参照)。この操作は、時間の経過とともにRGB-D画像のシーケンスを適用することで段階的に改善されます。
\
:::info 著者:
(1) Laksh Nanwani、国際情報技術研究所、ハイデラバード、インド;この著者は本研究に同等に貢献しました;
(2) Kumaraditya Gupta、国際情報技術研究所、ハイデラバード、インド;
(3) Aditya Mathur、国際情報技術研究所、ハイデラバード、インド;この著者は本研究に同等に貢献しました;
(4) Swayam Agrawal、国際情報技術研究所、ハイデラバード、インド;
(5) A.H. Abdul Hafez、ハサン・カリヨンジュ大学、シャヒンベイ、ガジアンテップ、トルコ;
(6) K. Madhava Krishna、国際情報技術研究所、ハイデラバード、インド。
:::
:::info この論文はarxivで入手可能であり、CC by-SA 4.0 Deed(表示-継承4.0国際)ライセンスの下で公開されています。
:::
\

