1. Title of the Paper:
How Culturally Aware are Vision-Language Models?
2. Goal of the Paper:
- Vision-Language Models (VLMs)가 이미지 캡셔닝 작업에서 문화적으로 특정한 정보를 얼마나 잘 인식하고 반영하는지 평가하는 것
- 신화, 민속 춤, 문화적 기호와 상징이 포함된 이미지를 통해 VLMs의 문화 인식 능력을 비교하고, 이를 평가하기 위한 새로운 지표인 Cultural Awareness Score (CAS)를 제안
3. Contribution:
- Cultural Awareness Score (CAS)라는 새로운 평가 지표를 제시하여, VLMs가 생성한 이미지 캡션에 문화적으로 중요한 정보가 포함되어 있는지를 측정함.
- 1,500개의 이미지가 포함된 MOSAIC-1.5k라는 데이터셋을 구축하고, 이를 통해 VLMs의 성능을 평가
- 이미지 유형별로 CAS 성능을 분석하여 문화적 요소가 적게 반영되는 이미지 유형을 파악함
- VLMs에서 발생하는 hallucination 현상의 빈도를 분석함으로써 특정 이미지 유형에서의 문제점을 발견하고 개선의 필요성을 제시함.
4. Methodology:
Dataset Curation:
- 전 세계 여러 문화에서 1,500개의 이미지를 선정
- 전통적인 춤, 신화적 생명체, 문화적 상징 등이 포함되며, 각 이미지는 문화적 맥락과 요소를 설명하는 자세한 주석과 함께 제공됨
- 이미지 캡셔닝 성능을 평가하기 위해 이미지와 관련된 문화적 배경 정보를 포함한 캡션이 생성되는지 CAS 지표를 활용해 분석
Model Selection:
연구에서는 다음과 같은 VLMs를 사용
- GPT-4V
- Gemini Pro Vision
- LLaVA
- OpenFlamingo