Title of the Paper
Question-Based Retrieval using Atomic Units for Enterprise RAG
Goal of the Paper:
- Enterprise Retrieval-Augmented Generation (RAG) 시스템의 성능을 개선하는 것
- 특히, 문서의 일부를 보다 효율적으로 검색하는 방법을 연구하여, 사용자 쿼리에 대해 더 정확한 문서 조각을 반환하는 것을 목표로 함.
- 이를 통해 잘못된 정보로 인한 오답을 줄이고, LLM(Large Language Model) 기반의 응답 생성을 향상시키고자 함
Contribution:
- 문서를 **원자적 단위(atomic statements)**로 분해하여, 기존보다 더 높은 검색 성능을 달성
- 생성된 원자 단위에서 **synthetic questions(인공 질문)**을 생성하고, 이를 사용한 검색 기법을 제안
- dense retrieval 방식을 사용한 기존 검색 방법에 비해 원자 단위의 문서 표현을 통해 검색 성능을 향상
Related Work
RAG
- 분할(Split): 텍스트 문서의 말뭉치가 주어지면, 텍스트를 독립적인 문단으로 분할하여 **청크(chunks)**를 생성합니다.
- 검색(Retrieve): 사용자 쿼리가 주어지면, 해당 쿼리에 적합한 청크 집합을 검색합니다.
- 응답 생성(Synthesize): 원래 쿼리와 검색된 청크를 **생성 모델(synthesizer model)**에 전달하여, 제공된 청크 정보를 컨텍스트로 사용해 쿼리에 대한 응답을 생성
Methodology:
- 기존 RAG의 Retrieval 단계를 개선하는데에 중점
- 이때 특정 쿼리에 대한 답변이 하나의 chunk에만 포함되어 있다고 가정함