반응형
LIST
Transformer의 탄생 배경자연어 처리 분야에서 순환신경망(RNN)은 오랫동안 메인 모델로 사용되어 왔습니다. 하지만 RNN은 길이가 길어질수록 성능이 저하되는 단점이 있었습니다. 그래서 어텐션(Attention) 메커니즘을 통해 입력과 출력 사이의 의존성을 직접적으로 모델링할 수 있는 트랜스포머가 제안되었습니다. 기존 순차 모델들이 단어 하나하나를 차례로 처리했던 것과 달리, 트랜스포머는 어텐션을 통해 전체 문장을 한번에 참조할 수 있게 되었습니다. 이를 통해 병렬 처리가 가능해져 계산 효율이 크게 향상되었습니다. 또한 문장의 길이에 상관없이 성능이 유지되는 장점도 가지고 있습니다. 이렇게 혁신적인 아이디어를 제시한 ‘Attention is all you need’ 논문은 트랜스포머 모델의 기반이..
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Metadata [!meta]- Metadata – PDF Title:: EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Authors:: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan, Year:: 2023 ItemType:: preprint Keywords:: Computer Science - Computer Vision and Pattern Recognition Related:: AB..
Abstract Next token prediction으로 학습한 GPT가 온갖 task를 잘한다. Computer Vision에서도 이런 만능 모델을 만들고 싶어서 새로운 task, model, data를 개발했다. Segmentation은 당연히 잘하고, 다른 테스크들에서도 성능이 높음. CV 분야에서 파운데이션 모델(Foundation model)을 만드려는 시도 파운데이션 모델(Foundation model)이란 하나의 테스크로 학습시킨 모델이 학습하지 않았던 다양한 분야에 바로 적용될 수 있는 general한 모델 ( ex. gpt ) Motivation 최근에 출시된 대규모의 언어모델 (ex. chat GPT)은 Zero-shot / Few-shot Generalization 성능을 보이고 있..