반응형
LIST
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Metadata [!meta]- Metadata – PDF Title:: EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Authors:: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan, Year:: 2023 ItemType:: preprint Keywords:: Computer Science - Computer Vision and Pattern Recognition Related:: AB..
Abstract Next token prediction으로 학습한 GPT가 온갖 task를 잘한다. Computer Vision에서도 이런 만능 모델을 만들고 싶어서 새로운 task, model, data를 개발했다. Segmentation은 당연히 잘하고, 다른 테스크들에서도 성능이 높음. CV 분야에서 파운데이션 모델(Foundation model)을 만드려는 시도 파운데이션 모델(Foundation model)이란 하나의 테스크로 학습시킨 모델이 학습하지 않았던 다양한 분야에 바로 적용될 수 있는 general한 모델 ( ex. gpt ) Motivation 최근에 출시된 대규모의 언어모델 (ex. chat GPT)은 Zero-shot / Few-shot Generalization 성능을 보이고 있..
Big Self-Supervised Models are Strong Semi-Supervised Learners paper: [https://arxiv.org/pdf/2006.10029.pdf] SimCLR v2는 세 가지 측면에서 개선되었습니다. 우선 기존에 ResNet-50을 4배 키운 모델을 이용했었는데, SimCLR v2에서는 ResNet-152를 3배 키우고 selective kernel을 더해 channel별로 attention을 가해주었습니다. 이는 기존과 비교했을 때 2배 정도 많은 parameter를 이용하지만, 1% labeled sample로 fine-tuning 했을 때 29%의 놀라운 top-1 accuracy 성능 향상을 보여주었습니다. 또한 SimCLR v2는 projectio..
SimCLR v1 이미지 데이터의 정답 label이 없는 상황에서 효과적으로 visual representation을 추출하는 SimCLR이라는 이름의 unsupervised learning algorithm을 소개합니다. SimCLR은 data augmentation을 통해 얻은 postive/ negative sample들에 대해 contrastive learning을 적용시켰으며, 성능 측면에서 supervised learning으로 학습한 모델들에 준하는 모습을 보여줍니다. Contrastive Learning Framework Unsupervised Learning이란 데이터의 label 없이 네트워크 모델을 학습하는 것을 의미합니다. 이전에 Computer vision 분야에서는 이미지를 임의..