1. Motivation
Lightweight training in Image Captioning
- VLM 기반 image captioning은 대규모 데이터셋에 대해 학습된 대규모 모델
- 계산 비용이 높고, open world에서의 새로운 이미지에 대해 학습 데이터를 업데이트하는 것은 거의 불가능함
- 즉 open world에 대한 지속적인 이해를 위해서는 LLM을 합리적 비용으로 Object knowledge를 유지하도록 하는 것이 중요하며, 이를 위한 training 방식으로 Lightweight training 방식이 대두됨

Retrieval-augmented image captioning
- time, data에서 모두 training cost를 줄이고 높은 성능을 보임
- large datastore를 활용하므로 LLMs이 주어진 texts를 단순히 모방하는 것으로 보이며 open world objects를 적절하게 묘사하는 능력이 떨어짐
- 많은 retrieved texts을 LLMs의 prompting에 포함하는 것은 번거로우며, 더 많은 trainable parameters를 요구
- 새로운 objects가 빈번하게 발생하기 때문에 datastore 내 sample texts를 항상 사용하는 것은 불가능하며, 사용되는 memory의 양 또한 늘리기 어려움
2. Methods

- expanded external memory를 이용해 retrieval-augmented LLMs-based image captioning model 구축
- retrieved object names 사용해 효과적인 LLM base model 설계
- frozen vision model + trainable LLMs
- visual feature +input image embedding을 매칭하고 **object names(value)**을 retrieving by external visual name memory
- attention fusion module을 이용해 관련없는 object name 제거,
- attention fusion에 따라 학습된 visual feature와 ojbect name feature 결합해 prompt 형성
- llm이 caption 생성
1. External visual-name memory
