[Related] self-attention과 residual block 비교
EfficientViT - [https://minyoungxi.tistory.com/94] multi-head self attention은 본 논문의 연구에서 텐서의 재구성과 element wise 연산 때문에 메모리 사용이 비효율적이라고 언급되었습니다. 트랜스포머 모델은 일반적으로 메모리 바운드되며, 특히 MHSA에서의 메모리 바운드 연산은 GPU/CPUs의 컴퓨팅 파워를 충분히 활용하지 못하게 하여 모델의 실행 속도에 부정적인 영향을 줍니다. MHSA와 피드-포워드 네트워크(FFN) 층의 비율을 적절히 조정함으로써 메모리 접근 시간을 상당히 줄일 수 있으며, 각 어텐션 헤드에 다양한 특징을 제공함으로써 중복을 줄이고 계산 효율성을 향상시킬 수 있다고 합니다. 최근 연구에 따르면 메모리 비효율적인 연산..