MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation

이번 포스팅은 DAFormer/HRDA의 저자로 유명한 Lukas Hoyer의 CVPR 2023 출판 논문 MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation 입니다. MIC는 자체적인 Masked Image Consistency (MIC) Module을 통하여 target image의 디테일한 visual appearance를 unsupervised learning으로 학습합니다.

Introduction

UDA 방법론들은 최근 몇 년 동안 크게 발전해 왔습니다. 그럼에도 불구하고 여전히 supervised learning performance (upper bound) 과 큰 차이가 발생하고있습니다. MIC에서는 이러한 문제의 원인이 시각적으로 비슷한 클래스간의 혼동(confusion)이라고 꼽습니다. 예를 들어 target domain의 road와 sidewalk 그리고 pedestrian과 rider의 시각적 차이는 너무나 미미하고 이를 학습할 수 있는 적당한 supervision 도 없습니다. 이 문제를 해결하기 위해 MIC는 spatial context relations 정보를 이용하는 자체적인 방법(MIC Module)을 제시합니다.

Figure 1. Pipeline overview of MIC

Masked Image Consistency Module (MIC Module)

저자들은 네트워크가 UDA 학습 파이프라인에서 명시적으로 target domain의 comprehensive context relations를 학습할 수 있는 방법을 제안하며 이를 Masked Image Consistency Module라고 명명합니다. 이름에서 볼 수 있드시, MIC는 입력으로 주어진 target image를 랜덤 마스킹하여 semantic segmentation을 수행하도록 학습합니다. 단, UDA의 세팅은 target의 GT에 접근할 수 없기에 teacher model의 pseudo-label을 활용하며 이 teacher 모델은 unmasked images로 pseudo label을 생성하고 EMA로 가중치를 업데이트 받습니다.

Loss functions

  • Supervised Learning Loss (train source domain):

source 도메인을 학습하기 위한 supervised learning loss의 경우 일반적인 cross-entropy loss를 그대로 사용합니다. 이외의 특이점은 없습니다.

  • MIC loss (unsupervised):

MIC Loss는위와 같이 정해집니다. 여기에서 ŷ은 masked image를 입력으로 받는 추론값이며 p는 teacher 모델이 생산한 pseudo label 입니다. 여기서 흥미로운 부분은 수식 가장 앞에 곱해지는 q 입니다. 저자들은 pseudo label 의 uncertainty를 고려하기 위해 teacher 모델의 maximum softmax probability를 함께 연산해줍니다.

  • Total Loss:

최종적으로 위 Loss들과 일반적인 Adaptation loss (L^T)를 합쳐 최종 Loss를 구성하게 됩니다.

Experiments

저자들은 본 연구를 Image Classification, Detection, 그리고 semantic segmentation에서 실헙합니다.

  • Semantic Segmentation (GTA -> Cityscapes)

위 실험과 같이 MIC는 다양한 연구에 쉽게 적용될 수 있습니다. 위 결과를 보게 되면 MIC plug-in이 유의미한 성능향상을 보임을 확인 할 수 있습니다.

  • Image Classification & Detection
Image classification acc. in % on Office-Home for UDA.
Object detection AP in % on CS→Foggy CS.

각각의 classification/detection task에서도 유의미한 성능 향상을 보이며 state-of-the-art를 달성합니다.

Conclusion

본 연구는 기존 UDA 방법론들이 해결하지 못한 target domain에서의 미미한 클래스 간 visual appearance를 명시적으로 학습할 수 있는 MIC Module을 제안합니다. 또한 이 모듈은 간단하면서도 다양한 연구에 plug-and-play 할 수 있는 장점을 보입니다. 최종적으로 다양한 previous works에 MIC를 적용해 유의미한 성능 향상을 하여 SOTA를 달성합니다.