1. Motivation
- 풍부한 input distribution과 과제 다양성으로 인해 범용 VLM을 구축하는 것은 아직 도전적임
- 특히 vision-language instruction tuning의 경우 아직 많이 연구되지 않은 분야임
- 이전 VLM 연구 방식
- Multitask training: 다양한 vision-language task를 동일한 input-output 형식으로 구성하여 훈련. instruction 없이 수행될 때 새로운 데이터셋과 작업에 잘 일반화되지 않음을 확인
- 추가적 시각 구성 요소로 사전 훈련된 llm을 확장하고, 이미지 캡션 데이터를 이용해 시각 구성 요소를 훈련함. 이러한 방식은 시각적 설명 이상을 요구하는 vision-laugnage task에 일반화되기에는 제한적임
- 본 논문에서는 pre-trained BLIP2를 기반으로 vision-language instruction tuning에 대한 체계적이고 종합적인 연구를 수행하고자 함
- instructionBLIP이라는 Vision-Language instruction tuning framework 제시
- 범용 모델이 통합된 자연어 인터페이스를 통해 다양한 vision language task를 해결할 수 있도록 함
- 다양한 instruction data를 이용해 multimodal llm을 훈련함. 구체적으로 이미지 인코더, llm, Q-Former로 구성된 blip2 모델을 이미지 인코더와 llm을 고정한 채 q former만 instruction tuning으로 미세 조정
- 비전-언어 instruction tuning의 고유한 문제를 해결하고, 보지 못한 데이터와 작업에 대한 모델의 일반화 능력 향상을 체계적으로 연구하는 것을 목표로 함
2. Methods
- 총 26개 오픈소스 데이터셋을 수집 후 instruction tuning 형식으로 변환한 후, instruction-aware Query Transformer를 이용해 주어진 instruction에 맞춘 정보적 특징을 추출함
- 13개 held-out 데이터셋에서 state of art zero shot 성능을 보여주며, Flamingo보다 성능이 뛰어남. 또한 개별 downstream task에서도 state of art 성능을 보임
Vision-Langugae Instruction Tuning
- instruction tuning dataset 구성법
- 11개 Task, 26개 dataset을 포함한 데이터 구성
- 각 task마다 10~15개의 고유한 instruction templete 작성해 instruction tuning data 구성에 사용

- 훈련 및 평가 프로토콜
- zero shot 평가를 위해 26개 dataset을 13개의 held-in dataset과 13개의 held out dataset으로 나눔(노란색이 held in, 하얀색이 held out)
- 데이터셋 분할
- 26개의 데이터셋을 13개의 훈련 데이터셋(held-in)과 13개의 테스트 데이터셋(held-out)으로 나눔.
- held-in 데이터셋: 훈련용 데이터 셋
- held-out 데이터셋: 제로샷 성능 평가용 데이터 셋
- 훈련 프로토콜
- 모든 held-in 데이터셋을 합쳐서 학습.
- 각 데이터셋의 instruction 템플릿 균등하게 샘플링.
- 언어 모델링 손실(loss) 기준으로 훈련하여 주어진 인스트럭션에 따라 응답 생성.
- Scene text가 포함된 데이터셋은 OCR 토큰 추가.