반응형
LIST
Abstract We introduce VASA, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, VASA-1, is capable of not only producing lip movements that are exquisitely synchronized with the audio, but also capturing a large spectrum of facial nuances and natural head motions that contribute to..
Transformer의 탄생 배경 자연어 처리 분야에서 순환신경망(RNN)은 오랫동안 메인 모델로 사용되어 왔습니다. 하지만 RNN은 길이가 길어질수록 성능이 저하되는 단점이 있었습니다. 그래서 어텐션(Attention) 메커니즘을 통해 입력과 출력 사이의 의존성을 직접적으로 모델링할 수 있는 트랜스포머가 제안되었습니다. 기존 순차 모델들이 단어 하나하나를 차례로 처리했던 것과 달리, 트랜스포머는 어텐션을 통해 전체 문장을 한번에 참조할 수 있게 되었습니다. 이를 통해 병렬 처리가 가능해져 계산 효율이 크게 향상되었습니다. 또한 문장의 길이에 상관없이 성능이 유지되는 장점도 가지고 있습니다. 이렇게 혁신적인 아이디어를 제시한 ‘Attention is all you need’ 논문은 트랜스포머 모델의 기반..
EfficientViT - [https://minyoungxi.tistory.com/94] multi-head self attention은 본 논문의 연구에서 텐서의 재구성과 element wise 연산 때문에 메모리 사용이 비효율적이라고 언급되었습니다. 트랜스포머 모델은 일반적으로 메모리 바운드되며, 특히 MHSA에서의 메모리 바운드 연산은 GPU/CPUs의 컴퓨팅 파워를 충분히 활용하지 못하게 하여 모델의 실행 속도에 부정적인 영향을 줍니다. MHSA와 피드-포워드 네트워크(FFN) 층의 비율을 적절히 조정함으로써 메모리 접근 시간을 상당히 줄일 수 있으며, 각 어텐션 헤드에 다양한 특징을 제공함으로써 중복을 줄이고 계산 효율성을 향상시킬 수 있다고 합니다. 최근 연구에 따르면 메모리 비효율적인 연산..
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Metadata [!meta]- Metadata – PDF Title:: EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Authors:: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan, Year:: 2023 ItemType:: preprint Keywords:: Computer Science - Computer Vision and Pattern Recognition Related:: AB..
Abstract Next token prediction으로 학습한 GPT가 온갖 task를 잘한다. Computer Vision에서도 이런 만능 모델을 만들고 싶어서 새로운 task, model, data를 개발했다. Segmentation은 당연히 잘하고, 다른 테스크들에서도 성능이 높음. CV 분야에서 파운데이션 모델(Foundation model)을 만드려는 시도 파운데이션 모델(Foundation model)이란 하나의 테스크로 학습시킨 모델이 학습하지 않았던 다양한 분야에 바로 적용될 수 있는 general한 모델 ( ex. gpt ) Motivation 최근에 출시된 대규모의 언어모델 (ex. chat GPT)은 Zero-shot / Few-shot Generalization 성능을 보이고 있..
Big Self-Supervised Models are Strong Semi-Supervised Learners paper: [https://arxiv.org/pdf/2006.10029.pdf] SimCLR v2는 세 가지 측면에서 개선되었습니다. 우선 기존에 ResNet-50을 4배 키운 모델을 이용했었는데, SimCLR v2에서는 ResNet-152를 3배 키우고 selective kernel을 더해 channel별로 attention을 가해주었습니다. 이는 기존과 비교했을 때 2배 정도 많은 parameter를 이용하지만, 1% labeled sample로 fine-tuning 했을 때 29%의 놀라운 top-1 accuracy 성능 향상을 보여주었습니다. 또한 SimCLR v2는 projectio..