Learning to Prompt Your Domain for Vision-Language Models

Goal of the Paper:

CLIP(Contrastive Language-Image Pretraining) 모델에서 효과적인 프롬프트 학습을 통해 비전-언어 모델을 연합 학습 환경에 적응시키는 방법을 제안
특히, 각 참가자의 데이터 도메인 간의 큰 차이를 해결하여 연합 학습의 효율성을 향상시킴

cf. 연합 학습(Federated Learning)

여러 클라이언트가 각각의 데이터를 로컬에 보관한 상태에서, 중앙 서버에 데이터를 보내지 않고도 공동으로 모델을 학습시키는 방식
데이터 프라이버시를 보호하면서 분산된 데이터로부터 학습 가능
최근에는 multi-modal contrastive learning의 발전을 기반으로 CLIP 기반의 연합 학습 방법이 개발됨(FedCLIP, PromptFL 등)

Contribution:

ADAPT 제안: 도메인에 따라 서로 다른 프롬프트를 학습 및 공유하는 **FederAted Domain-Aware Prompt Tuning(ADAPT)**을 제안하여 도메인 간 차이를 극복함.
효율적인 통신: 연합 학습에서 최소한의 파라미터만 공유함으로써 통신 비용을 줄이고 빠른 학습을 가능하게 함.
향상된 프라이버시 보호: 프롬프트 학습 방식이 기존 연합 학습 모델보다 개인정보 유출의 위험을 줄임.

🐱 Methodology: FederAted Domain-Aware Prompt Tuning(ADAPT)

연합 학습 환경에서 도메인 간 차이(각 클라이언트가 가진 데이터의 특성, 스타일이 다름)가 있다고 가정하며 이를 효과적으로 처리하기 위해 제안
CLIP 모델 기반 학습을 통해 성능을 향상시키고자 하며 도메인 인식 프롬프트 학습을 통해 이미지가 어떤 도메인에 속하는지 확인하고, 그에 맞는 예측을 수행함
visual prompt와 textual prompt를 이용해 CLIP의 image encoder, text encoder에 도메인 정보를 제공해 학습 진행
- visual prompt:
  - 각 도메인마다 1개의 학습가능한 토큰을 사용하여 이 토큰을 패치 임베딩 된 이미지 토큰에 추가하고 도메인 간 시각적 차이를 감지하고 분류하는데에 사용
- textual prompt:
  - 여러 학습가능한 토큰($PT = [t]_1[t]_2...[t]_m \in R^{m \times de}$)으로 구성되어 있으며, 각 도메인의 스타일을 반영하는 텍스트 설명 제공 (ex. a painting/sketch of)
Local Training Step
- Data: 다양한 도메인의 데이터를 포함한 DomainNet 데이터셋의 6개 도메인(클립아트, 인포그래프, 페인팅, 퀵드로우, 실제 이미지, 스케치) 사용
1. pre-trained CLIP 모델 로드 및 이미지 인코더$F_V$와 텍스트 인코더$F_T$ 파라미터 고정. 이때 학습 가능한 부분은 visual prompt와 textual prompt 뿐임
2. 각 클라이언트는 자신이 속한 도메인의 데이터를 사용해 시각적 프롬프트와 텍스트 프롬프트를 학습함. 텍스트 프롬프트는 도메인 정보를 텍스트 임베딩 공간에서 나타내며, 시각적 프롬프트는 이미지 토큰에 도메인 정보를 추가하여 도메인 정보 반영함
  1. $f_T^i = F_T(P_T^i, [classname])$
  2. $f_V = F_V([cls], [v]^1, [v]^2, ..., [v]^n, [image])$
3. 인코더에서 얻은 시각적 프롬프트의 출력과 텍스트 프롬프트의 출력을 cross attention을 이용해 결합하며 최종 이미지 분류에 사용
  1. $w_i = \frac{\exp(\langle q_{cls}, k_i \rangle / \tau_d)}{\sum_j \exp(\langle q_{cls}, k_j \rangle / \tau_d)}$
  2. 최종 텍스트 출력 계산: $f_T = \sum_{i=1}^{n} w_i f_T^i$
loss function
- 객체 분류 손실: f_V와 f_T 사이 cross entropy
- 도메인 간 상관성 손실: 시각적 및 텍스트 출력 쌍 사이 cross entropy