반응형
LIST
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Metadata [!meta]- Metadata – PDF Title:: EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Authors:: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan, Year:: 2023 ItemType:: preprint Keywords:: Computer Science - Computer Vision and Pattern Recognition Related:: AB..
Abstract Next token prediction으로 학습한 GPT가 온갖 task를 잘한다. Computer Vision에서도 이런 만능 모델을 만들고 싶어서 새로운 task, model, data를 개발했다. Segmentation은 당연히 잘하고, 다른 테스크들에서도 성능이 높음. CV 분야에서 파운데이션 모델(Foundation model)을 만드려는 시도 파운데이션 모델(Foundation model)이란 하나의 테스크로 학습시킨 모델이 학습하지 않았던 다양한 분야에 바로 적용될 수 있는 general한 모델 ( ex. gpt ) Motivation 최근에 출시된 대규모의 언어모델 (ex. chat GPT)은 Zero-shot / Few-shot Generalization 성능을 보이고 있..
https://minyoungxi.tistory.com/52 논문 리뷰 - Vision Transformer 비전 트랜스포머 part2 https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리 minyoungxi.tistory.com 2021년 마이크로소프트 아시아에서 발표한 Swin Transformer에 대해 알아봅시다. ViT(Vision Transformer)는 이미지를 patch로 잘라 self attention을 하는데요, 이 논문에서 모든 patch가 self attention을 하..
https://arxiv.org/pdf/1512.04150.pdf Learning Deep Features for Discriminative Localization - 2015 기존의 CNN 모델에서는 Input → Conv layers → Fc layers → softmax 의 매커니즘을 통해 특정 이미지를 클래스로 분류하는 학습 과정을 거칩니다. 이는 매우 일반적인 방법으로 마지막 feature map을 flatten 하여 1차원 백터들로 만든 후에 이를 Fully Connected Network를 통과하여 Softmax로 분류하는 것이죠. Learning Deep Features for Discriminative Localization - Introduction ( 논문 발췌 부분 ) Despite..