Abstract

언어 모델이 real world application에서 사용되는데 이러한 모델들은 large pre-training corpora로부터 social bias를 내포할 수 있으며 이는 downstream task에서 더 증폭될 수 있음

이러한 문제를 해결하기 위해 downstream task에서 counterfactual contrastive prompt tuning 를 적용해 편향을 완화시키는 방법인 Co2PT 제안

cf. counterfactual contrastive prompt tuning

원래 문장에서 특정 속성(예: 성별, 인종, 직업 등)을 변경하여 새로운 데이터를 생성하는 것

 "The man is a doctor” >>  "The woman is a doctor”

3가지 extrinsic benchmark dataset에서 실험을 수행하여 Co2PT의 편향 완화 효과 및 기존의 upstream debiased language models에의 적용가능성을 보여줌

Introduction

언어 모델이 real world application에서 사용되는데 이러한 모델들은 large pre-training corpora로부터 social bias를 내포할 수 있으며 이는 downstream task에서 더 증폭될 수 있음이 이전 연구에서 입증됨
예를 들어 언어 모델링 작업에서 "She is a nurse"가 "He is a nurse"보다 더 높은 조건부 가능성을 가질 수 있으며, 대명사 해소 작업에서 "nurse"가 "he"보다 "she"와 더 높은 coreference scores를 가질 수 있음
이전 연구의 경우, 대부분이 사전 학습 과정에서 학습된 표현을 debiasing하는데 초점을 맞춤
- through projection (Dev et al.,2020; Liang et al., 2020; Ravfogel et al., 2020;Kaneko and Bollegala, 2021)
- further pre-training on unbiased external corpora (Webster et al., 2020; Lauscher et al., 2021; He et al., 2022)
- finetuning to debias (Cheng et al., 2021; Guo et al.,2022).
- SEAT intrinsic benchmark dataset:인구 통계 용어(예: woman, man)와 고정관념 용어(예: science, art) 간의 연관성을 계산하여, 편향이 없는 모델은 이러한 용어들의 표현 간에 차이가 없음을 나타냄
이러한 이전 연구 방식들의 경우 intrinsic bias evaluation에서 사회적 편향을 줄이는데 도움을 주지만, 이러한 debiasing-finetuning 방법은 upstream 모델에 편향이 없으면 fine tuning 과정에서도 공정성이 유지될 것이라는 가설에 기반하고 있음
그러나 내적 벤치마크와 다운스트림 응용 프로그램에서 공정성을 평가하는 외적 벤치마크 간의 관계를 조사한 최근 연구에 따르면, 이 두 벤치마크 간의 상관관계가 약하다는 것을 발견(Kaneko et al., 2022). 하였으며 오히려 downstream task를 위한 fine tuning 과정에서 bias를 다시 습득하거나 증폭시키는 경향이 있음을 발견함(Zhao et al., 2017; Leino et al., 2019).
따라서 다운스트림 작업에서도 편향을 완화하기 위한 효율적이고 효과적인 방법을 제안하고자 하며 Co2PT를 제안함

Abstract

Introduction

Related Works