BLIP 이전 VLP 모델의 한계

Contribution

1. MED(Multimodal Mixture of Encoder-Decoder)

2. CapFilt(Captioning and Filtering)

Knowledge Distillation 활용

Untitled

Data Augmentation 활용

Untitled