Tóm tắt và 1. Giới thiệu
Các Công Trình Liên Quan
MaGGIe
3.1. Masked Guided Instance Matting Hiệu Quả
3.2. Tính Nhất Quán Thời Gian của Feature-Matte
Bộ Dữ Liệu Instance Matting
4.1. Image Instance Matting và 4.2. Video Instance Matting
Thí Nghiệm
5.1. Tiền huấn luyện trên dữ liệu ảnh
5.2. Huấn luyện trên dữ liệu video
Thảo Luận và Tài Liệu Tham Khảo
\ Tài Liệu Bổ Sung
Chi tiết kiến trúc
Image matting
8.1. Tạo và chuẩn bị bộ dữ liệu
8.2. Chi tiết huấn luyện
8.3. Chi tiết định lượng
8.4. Thêm kết quả định tính trên ảnh tự nhiên
Video matting
9.1. Tạo bộ dữ liệu
9.2. Chi tiết huấn luyện
9.3. Chi tiết định lượng
9.4. Thêm kết quả định tính
Phần này mở rộng về quy trình image matting, cung cấp thêm thông tin chi tiết về việc tạo bộ dữ liệu và so sánh toàn diện với các phương pháp hiện có. Chúng tôi đi sâu vào việc tạo ra các bộ dữ liệu I-HIM50K và M-HIM2K, cung cấp phân tích định lượng chi tiết và trình bày thêm các kết quả định tính để nhấn mạnh hiệu quả của phương pháp của chúng tôi.
Bộ dữ liệu I-HIM50K được tổng hợp từ bộ dữ liệu HHM50K [50], được biết đến với bộ sưu tập rộng lớn các matte ảnh con người. Chúng tôi sử dụng mô hình MaskRCNN [14] Resnet-50 FPN 3x, được huấn luyện trên bộ dữ liệu COCO, để lọc ra các ảnh một người, tạo ra tập con gồm 35,053 ảnh. Theo phương pháp InstMatt [49], những ảnh này được ghép với các nền đa dạng từ bộ dữ liệu BG20K [29], tạo ra các kịch bản nhiều instance với 2-5 đối tượng trên mỗi ảnh. Các đối tượng được thay đổi kích thước và định vị để duy trì tỷ lệ thực tế và tránh chồng lấn quá mức, như được chỉ định bởi các instance IoUs không vượt quá 30%. Quá trình này tạo ra 49,737 ảnh, trung bình 2.28 instance trên mỗi ảnh. Trong quá trình huấn luyện, các mặt nạ hướng dẫn được tạo ra bằng cách nhị phân hóa các alpha matte và áp dụng các thao tác dropout, dilation và erosion ngẫu nhiên. Các ảnh mẫu từ I-HIM50K được hiển thị trong Hình 10.
\ Bộ dữ liệu M-HIM2K được thiết kế để kiểm tra độ bền vững của mô hình trước các chất lượng mặt nạ khác nhau. Nó bao gồm mười mặt nạ cho mỗi instance, được tạo bằng các mô hình MaskRCNN khác nhau. Thông tin chi tiết hơn về các mô hình được sử dụng cho quá trình tạo này được hiển thị trong Bảng 8. Các mặt nạ được khớp với các instance dựa trên IoU cao nhất với các alpha matte gốc, đảm bảo ngưỡng IoU tối thiểu là 70%. Các mặt nạ không đáp ứng ngưỡng này được tạo nhân tạo từ ground truth. Quá trình này tạo ra một tập hợp toàn diện gồm 134,240 mặt nạ, với 117,660 cho ảnh tổng hợp và 16,600 cho ảnh tự nhiên, cung cấp một benchmark mạnh mẽ để đánh giá masked guided instance matting. Toàn bộ bộ dữ liệu I-HIM50K và M-HIM2K sẽ được phát hành sau khi nghiên cứu này được chấp nhận.
\ 
\ 
\
:::info Tác giả:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).
:::
:::info Bài báo này có sẵn trên arxiv theo giấy phép CC by 4.0 Deed (Attribution 4.0 International).
:::
\


