[논문리뷰] - TransformerFAM: Feedback attention is working memory - 어텐션! 너 조금씩 깊게 봐봐
이전 논문 : Transformer - attentioon is all you need 1. Introduction 논문이 다루는 task Input : 무한한 길이의 시퀀스 (Infinitely long sequences) Output : 입력 시퀀스에 대한 처리 결과 (Processed output of the input sequence) 해당 task에서 기존 연구 한계점 Transformer의 quadratic attention complexity로 인해 무한한 길이의 입력을 처리하는 데 한계가 있습니다. quadratic attention complexity란 어텐션 메커니즘의 계산 복잡도를 의미합니다. Transformer에서 사용되는 어텐션 메커니즘은 각 토큰이 다른 모든 토큰과의 관계를 계..