vit
-
CV#1 A ConvNet for the 2020s 논문 리뷰REVIEW 2022. 4. 26. 23:08
논문 링크 : https://arxiv.org/abs/2201.03545 회사에서의 업무가 Computer Vision의 Document Analysis 쪽을 하게 되면서, 모델 성능 개선을 위해 찾던 중 읽은 논문을 요약하여 정리하려고 한다. 이 논문의 주요 포인트는 CV 분야에서 Transformer 기반의 모델이 좋은 성능을 보이는데, 이것이 Transformer가 CNN 보다 좋음을 의미하지 않는다는 것을 말하려고 하는 것이다. 현재 Image Classification 에서는 VIT 모델이, Semantic Segmentation 등의 모델에서는 hierarchical Transformers를 사용한 Swin Transformers 모델이 가장 좋은 성능을 보인다. 본 논문에서는 이 모델들에서 ..