트랜스포머

    [Multi-modal] 논문 리뷰 FashionVLP

    이번에 소개할 논문은 Fashion VLP라는 논문입니다. FashionVLP는 '시각-언어 상호작용 (Vision-Language Interaction)'을 이용하여 패션 관련 작업을 수행하는 비전 언어 모델입니다. 이 논문에서는 패션 이미지에 대한 캡션 생성, 이미지 검색 및 다른 언어 모델과의 비교 실험 등에 대해 다루고 있습니다. 또한, FashionVLP는 BERT 기반의 언어 모델과 ViT 기반의 비전 모델을 결합하여 학습되며, 다양한 패션 관련 작업에서 우수한 성능을 보여줍니다. 이러한 결과는 FashionVLP가 다양한 패션 관련 응용 분야에서 유용하게 사용될 수 있다는 가능성을 제시합니다. Fashion VLP - 논문 제목: FashionVLP: Vision Language Transf..

    트랜스포머(Transformer) - 1 (포지셔널 인코딩)

    트랜스포머는 Attention 메커니즘을 이해한 뒤 읽는 것을 추천한다. 트랜스포머는 NLP에서의 예제가 풍부하며, 그외 다른 State-of-the-Art (SOTA) 기술의 기반이 되는 알고리즘이다. 특히 기계 번역 분야에서 이 모델은 seq2seq의 구조인 인코더-디코더를 따르면서도, RNN을 사용하지 않고도 RNN보다 우수한 성능을 보여주었다. 필자는 아직도 트랜스포머에 대해 공부하고 있으며, 트랜스포머 자체가 방대하고 복잡하게 설계된 알고리즘이기에, 여러 차시로 나눠서 트랜스포머에 대해 설명하고자 한다. 요약본의 상당 부분은 유원준 & 안상준 저의 책을 참고하였음을 사전에 밝힌다. 1. 기존 seq2seq 모델의 한계와 Transformer의 동작원리 seq2seq 모델의 기본 구조는 인코더-디..