MaGGIe xuất sắc trong việc kết xuất tóc và phân tách đối tượng trên hình ảnh tự nhiên, vượt trội hơn MGM và InstMatt trong các tình huống phức tạp, nhiều đối tượng.MaGGIe xuất sắc trong việc kết xuất tóc và phân tách đối tượng trên hình ảnh tự nhiên, vượt trội hơn MGM và InstMatt trong các tình huống phức tạp, nhiều đối tượng.

Matting hướng dẫn bằng mặt nạ mạnh mẽ: Quản lý đầu vào nhiễu và tính linh hoạt của đối tượng

Tóm tắt và 1. Giới thiệu

  1. Các Công Trình Liên Quan

  2. MaGGIe

    3.1. Matting Thực Thể Có Hướng Dẫn Mặt Nạ Hiệu Quả

    3.2. Tính Nhất Quán Thời Gian Feature-Matte

  3. Bộ Dữ Liệu Matting Thực Thể

    4.1. Matting Thực Thể Ảnh và 4.2. Matting Thực Thể Video

  4. Thí Nghiệm

    5.1. Tiền huấn luyện trên dữ liệu ảnh

    5.2. Huấn luyện trên dữ liệu video

  5. Thảo Luận và Tài Liệu Tham Khảo

\ Tài Liệu Bổ Sung

  1. Chi tiết kiến trúc

  2. Matting ảnh

    8.1. Tạo và chuẩn bị bộ dữ liệu

    8.2. Chi tiết huấn luyện

    8.3. Chi tiết định lượng

    8.4. Thêm kết quả định tính trên ảnh tự nhiên

  3. Matting video

    9.1. Tạo bộ dữ liệu

    9.2. Chi tiết huấn luyện

    9.3. Chi tiết định lượng

    9.4. Thêm kết quả định tính

8.4. Thêm kết quả định tính trên ảnh tự nhiên

Hình 13 giới thiệu hiệu suất của mô hình chúng tôi trong các tình huống thử thách, đặc biệt là trong việc tái tạo chính xác vùng tóc. Framework của chúng tôi luôn vượt trội hơn MGM⋆ trong việc bảo toàn chi tiết, đặc biệt trong các tương tác thực thể phức tạp. So với InstMatt, mô hình của chúng tôi thể hiện khả năng phân tách thực thể và độ chính xác chi tiết vượt trội trong các vùng mơ hồ.

\ Hình 14 và Hình 15 minh họa hiệu suất của mô hình chúng tôi và các công trình trước đây trong các trường hợp cực đoan liên quan đến nhiều thực thể. Trong khi MGM⋆ gặp khó khăn với nhiễu và độ chính xác trong các tình huống thực thể dày đặc, mô hình của chúng tôi duy trì độ chính xác cao. InstMatt, không có dữ liệu huấn luyện bổ sung, cho thấy những hạn chế trong các cài đặt phức tạp này.

\ Sự mạnh mẽ của phương pháp có hướng dẫn mặt nạ của chúng tôi được chứng minh thêm trong Hình 16. Ở đây, chúng tôi nêu bật những thách thức mà các biến thể MGM và SparseMat gặp phải trong việc dự đoán các phần còn thiếu trong đầu vào mặt nạ, mà mô hình của chúng tôi giải quyết. Tuy nhiên, điều quan trọng cần lưu ý là mô hình của chúng tôi không được thiết kế như một mạng phân đoạn thực thể con người. Như được hiển thị trong Hình 17, framework của chúng tôi tuân thủ hướng dẫn đầu vào, đảm bảo dự đoán alpha matte chính xác ngay cả với nhiều thực thể trong cùng một mặt nạ.

\ Cuối cùng, Hình 12 và Hình 11 nhấn mạnh khả năng tổng quát hóa của mô hình chúng tôi. Mô hình trích xuất chính xác cả đối tượng con người và các đối tượng khác khỏi nền, thể hiện tính linh hoạt của nó trong các tình huống và loại đối tượng khác nhau.

\ Tất cả các ví dụ là ảnh Internet không có ground-truth và mặt nạ từ r101fpn400e được sử dụng làm hướng dẫn.

\ Hình 13. Mô hình của chúng tôi tạo ra alpha matte chi tiết cao trên ảnh tự nhiên. Kết quả của chúng tôi cho thấy nó chính xác và có thể so sánh với các phương pháp bất khả tri thực thể và nhận thức thực thể trước đây mà không tốn chi phí tính toán đắt đỏ. Các hình vuông màu đỏ phóng to các vùng chi tiết cho từng thực thể. (Xem tốt nhất khi xem màu và phóng to kỹ thuật số).

\ Hình 14. Các framework của chúng tôi phân tách chính xác các thực thể trong trường hợp cực đoan với nhiều thực thể. Trong khi MGM thường gây ra sự chồng chéo giữa các thực thể và MGM⋆ chứa nhiễu, của chúng tôi tạo ra kết quả ngang bằng với InstMatt được huấn luyện trên bộ dữ liệu bên ngoài. Mũi tên màu đỏ chỉ ra các lỗi. (Xem tốt nhất khi xem màu và phóng to kỹ thuật số).

\ Hình 15. Các framework của chúng tôi phân tách chính xác các thực thể trong một lần chạy duy nhất. Giải pháp được đề xuất cho thấy kết quả tương đương với InstMatt và MGM mà không cần chạy dự đoán/tinh chỉnh năm lần. Mũi tên màu đỏ chỉ ra các lỗi. (Xem tốt nhất khi xem màu và phóng to kỹ thuật số).

\ Hình 16. Không giống như MGM và SparseMat, mô hình của chúng tôi mạnh mẽ với mặt nạ hướng dẫn đầu vào. Với đầu attention, mô hình của chúng tôi tạo ra kết quả ổn định hơn cho các đầu vào mặt nạ mà không cần tinh chỉnh phức tạp giữa các thực thể như InstMatt. Mũi tên màu đỏ chỉ ra các lỗi. (Xem tốt nhất khi xem màu và phóng to kỹ thuật số).

\ Hình 17. Giải pháp của chúng tôi hoạt động chính xác với các hướng dẫn mặt nạ đa thực thể. Khi nhiều thực thể tồn tại trong một mặt nạ hướng dẫn, chúng tôi vẫn tạo ra alpha matte hợp nhất chính xác cho các thực thể đó. Mũi tên màu đỏ chỉ ra các lỗi hoặc vùng phóng to trong hộp màu đỏ. (Xem tốt nhất khi xem màu và phóng to kỹ thuật số).

\ Bảng 12. Chi tiết kết quả định lượng trên HIM2K + M-HIM2K (Mở rộng của Bảng 5). Màu xám chỉ ra trọng số công khai không được huấn luyện lại.

\ Bảng 12. Chi tiết kết quả định lượng trên HIM2K + M-HIM2K (Mở rộng của Bảng 5). Màu xám chỉ ra trọng số công khai không được huấn luyện lại. (Tiếp tục)

\ Bảng 12. Chi tiết kết quả định lượng trên HIM2K + M-HIM2K (Mở rộng của Bảng 5). Màu xám chỉ ra trọng số công khai không được huấn luyện lại. (Tiếp tục)

\ Bảng 12. Chi tiết kết quả định lượng trên HIM2K + M-HIM2K (Mở rộng của Bảng 5). Màu xám chỉ ra trọng số công khai không được huấn luyện lại. (Tiếp tục)

\ Bảng 13. Hiệu quả của các mô-đun tính nhất quán thời gian được đề xuất trên V-HIM60 (Mở rộng của Bảng 6). Sự kết hợp của Conv-GRU hai chiều và fusion thuận-nghịch đạt được hiệu suất tổng thể tốt nhất trên ba bộ dữ liệu kiểm tra. In đậm làm nổi bật tốt nhất cho từng cấp độ.

\

:::info Tác giả:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Bài báo này có sẵn trên arxiv theo giấy phép CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Cơ hội thị trường
Logo Mask Network
Giá Mask Network(MASK)
$0.5585
$0.5585$0.5585
-2.59%
USD
Biểu đồ giá Mask Network (MASK) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ service@support.mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.