이번에 소개할 논문은 Fashion VLP라는 논문입니다.
FashionVLP는 '시각-언어 상호작용 (Vision-Language Interaction)'을 이용하여 패션 관련 작업을 수행하는 비전 언어 모델입니다.
이 논문에서는 패션 이미지에 대한 캡션 생성, 이미지 검색 및 다른 언어 모델과의 비교 실험 등에 대해 다루고 있습니다. 또한, FashionVLP는 BERT 기반의 언어 모델과 ViT 기반의 비전 모델을 결합하여 학습되며, 다양한 패션 관련 작업에서 우수한 성능을 보여줍니다.
이러한 결과는 FashionVLP가 다양한 패션 관련 응용 분야에서 유용하게 사용될 수 있다는 가능성을 제시합니다.
Fashion VLP
- 논문 제목: FashionVLP: Vision Language Transformer for Fashion Retrieval with Feedback
- 저자: Goenka et al. (2022)
Amazon에서 연구한 패션 이미지 검색 (Fashion Image Retrieval) 알고리즘 입니다.
패션 이미지를 보고 유저가 텍스트로 피드백을 주었을 때, 피드백을 반영하여 패션 아이템을 찾아주는 검색 알고리즘이라고 볼 수 있습니다.
간단한 예를 들면,
위 그림처럼 회색 드레스에 대해서 유저가 “나 이 드레스가 오렌지 색깔이고 노출 부위가 적었으면 좋겠어” 라고 피드백을 주면, 오른쪽 세개의 그림처럼 이 피드백을 반영한 이미지가 검색(출력)이 됩니다.
좋은 성능을 위해서 어떻게 이미지를 컴퓨터가 읽을 수 있도록 표현을 할 것인지,
텍스트 피드백은 어떻게 표현할 것인지,
[ 이미지 + 텍스트 ] 를 어떻게 연결해서 표현할 것인지,
즉 데이터의 표현이 굉장히 주요하다고 느꼈습니다.
이렇게 표현된 데이터를 트랜스포머 기반으로 학습합니다.
자세한 내용은 하기 장표 참고 바랍니다.
0. Icebreaking
이 파트는 논문에 없는 내용입니다.
Fashion VLP논문에 앞서 아래와 같은 지식이 수반된다면, 더욱 더 폭 넓게 이해할 수 있습니다.
1. Fashion VLP Introduction
Fashion VLP에 대한 소개입니다.
좌측 그림과 같이 입력 이미지에 대해 피드백을 다양한 형태로 줄 수 있습니다.
단순하게 "이 옷보다 밝은 색의 디자인을 원해"와 같은 단순한 요청을 할 수도 있으며,
조금 더 복잡하게 "색깔은 오렌지, 그리고 신체 노출도가 적은 옷을 원해" 등과 같은 조금 더 복잡한 요청을 잘처리하는 것을 볼 수 있습니다.
2. Model Structure
다음은 모델 구조입니다.
Fashio VLP는 총 2개의 블록으로 이루어져있습니다. Refernce Block과 Target Block인데요.
두 블록이 병렬적으로 위치해있습니다.
2.1 Reference Block
우선 레퍼런스 블록의 내부 구조입니다.
이미지와 텍스트 데이터를 어떻게 표현하는지 아래 장표를 통해 확인할 수 있습니다.
각각 표현된 데이터를 하나로 연결해서 큰 덩어리로 표현하고, 결국에는 연결된 표현을 트랜스포머를 통해 학습한다고 볼 수 있습니다.
2.2 Target Block
다음은 타겟 블록의 내부구조입니다.
타겟블록은 레퍼런스 블록에 정답이 되는 타겟 이미지를 처리하는 블록입니다.
레퍼런스 블록에 비해, 표현이 풍부하지 않습니다. 우선 객체 검출(object detection) 부분은 빠져있습니다.
3. Experiment
다음은 FashionVLP 성능을 평가하기 위한 실험입니다.
TRIG, VAL, LBF, CosMo, VinVL과 같은 다양한 알고리즘을 비교군으로 넣었으며, 다른 모델 대비 어떤 기능이 더 추가되었는지 설명하고 있습니다.
본격적으로 실험 결과를 소개하기 앞서, 평가 방법에 대해 간단하게 소개합니다.
아래 장표 참고 바랍니다.
3.1 실험결과 - Fashion IQ 데이터셋 활용
Fashion IQ 데이터셋을 활용했을 때, Fashion VLP의 정성적인 실험 결과를 보여줍니다.
생각보다 쿼리를 꽤 반영해서, 나름 논리적인 결과물을 출력하고 있는걸로 보입니다.
초록 드레스에 블랙 패턴을 입힌다던가,
초록 티셔츠를 체크패턴 셔츠로 바꿔준다던가.
실제 Recall@K 부분에서도 타 SOTA 솔루션 대비 높은 성능을 나타내는 것을 볼 수 있습니다.
3.2 Fashion200K
다음은 Fashion 200K 데이터셋에 대한 실험 결과입니다.
이 데이터셋의 특징은 쿼리를 특정 템플렛으로만 넣어서 작동을 시킬 수 있다는 부분이었습니다.
"replace 기존 색깔 with 다른 색깔"
자연어라고 보기에는 부자연스러운 느낌이 있습니다.
결과는 아래 장표를 확인하길 바랍니다.
3.3 Shoe 데이터셋
다음은 Shoe 데이터셋에 대한 결과입니다.
이 데이터셋은 더 복잡한 쿼리를 반영할 수 있습니다.
3.4 Ablation Study
다음은 Ablation Study 결과 입니다.
Ablation Study란 완성한 알고리즘에서 결과와 알고리즘의 기능을 하나씩 제거하고 실험 했을 때의 결과를 비교한 스터디라고 할 수 있겠습니다.
온전한 알고리즘일 때 성능이 가장 높게 나타났습니다.
다음은 이 실험의 한계입니다.
저의 개인적인 견해도 넣어봤습니다.
4. Conclusion
마지막으로 결론입니다.
추가적으로 원문을 읽어보고 싶으시면, Amazon Science 레포지토리에서 다운받으시거나, CVPR2022에서 받으실 수 있습니다.
'논문 리뷰' 카테고리의 다른 글
[추천시스템] Buy It Again: Modeling Repeat Purchase Recommendations (Bhagat et al., 2018) (0) | 2023.02.24 |
---|