概要と1 はじめに
関連研究
2.1. ビジョンと言語によるナビゲーション
2.2. セマンティックシーン理解とインスタンスセグメンテーション
2.3. 3Dシーン再構築
方法論
3.1. データ収集
3.2. 画像からのオープンセットセマンティック情報
3.3. オープンセット3D表現の作成
3.4. 言語誘導ナビゲーション
実験
4.1. 定量的評価
4.2. 定性的結果
結論と今後の課題、開示声明、および参考文献
近年、3Dシーン再構築は大きな進歩を遂げています。この分野の最近の研究には、RGB-Dスキャンからのセマンティックジオメトリ補完と外観再構築のための自己教師あり手法の使用が含まれます。例えば[26]では、ジオメトリと色のための3Dエンコーダ-デコーダアーキテクチャを使用しています。これらのアプローチでは、正解データなしでセマンティック再構築を生成することに焦点が当てられています。別のアプローチは、リアルタイム3D再構築をSLAMと統合することです。これはキーフレームベースの技術によって行われ、最近の自律ナビゲーションとAR使用事例[27]で使用されています。さらに別の最近の方法では、カメラで撮影されたシーンを理解するためにStructure-from-Motionを活用する際に、屋内空間向けのNeural Radiance Fields[28]に関する研究が行われています。これらのNeRFモデルは各場所ごとに訓練され、空間理解に特に優れています。もう一つの方法は、オープンボキャブラリと、オブジェクトとその視覚的表現の間のセマンティックな関係を捉えるためのCLIPのような基盤モデルを使用して、3Dシーングラフを構築することです[4]。再構築中、彼らは3Dポイントクラウドから抽出された特徴を、CLIPによって学習された埋め込み空間に投影します。
\ この研究では、前のセクションで説明したオープンセット2Dインスタンスセグメンテーション方法を使用しています。RGB-D画像が与えられると、RGB画像から個々のオブジェクトマスクを取得し、深度画像を使用して3Dに逆投影します。ここでは、以前Concept-Fusion [29]で行われていたポイントごとの計算による再構築ではなく、インスタンスベースのアプローチを採用しています。このオブジェクトごとの特徴マスク抽出は、このパイプラインのオープンセットの性質を保持する埋め込みの計算にも役立ちます。
\
:::info 著者:
(1) Laksh Nanwani、国際情報技術大学、ハイデラバード、インド;この著者は本研究に同等に貢献しました;
(2) Kumaraditya Gupta、国際情報技術大学、ハイデラバード、インド;
(3) Aditya Mathur、国際情報技術大学、ハイデラバード、インド;この著者は本研究に同等に貢献しました;
(4) Swayam Agrawal、国際情報技術大学、ハイデラバード、インド;
(5) A.H. Abdul Hafez、ハサン・カリヨンジュ大学、シャヒンベイ、ガジアンテプ、トルコ;
(6) K. Madhava Krishna、国際情報技術大学、ハイデラバード、インド。
:::
:::info この論文はarxivで入手可能であり、CC by-SA 4.0 Deed(表示-継承 4.0 国際)ライセンスの下で公開されています。
:::
\

