[논문리뷰] - SSM과 S4 모델들을 알아보자 ! ( + Transformer , Mamba ) - State Space Model for New-Generation Network Alternative to Transformers: A Survey
SSM(Space State Model)은 뭐야 ?SSM은 기존 Transformer(https://minyoungxi.tistory.com/104) 기반 모델에 비해 다양한 작업에서 계산 비용이 낮으면서 큰 잠재력을 보이며 주목받고 있습니다. 제어 이론 및 계산 신경 과학에 뿌리를 두고 있으며, 동적 시스템을 상태 변수로 모델링하여 딥러닝에 적용됩니다. 그렇다면 Transformer의 문제는 무엇일까요 ? Transormer는 Attention 기법을 통해서 일반적으로 장거리 종속성을 개선했지만, Transformer의 문제점은 유전체 또는 극도로 긴 텍스트와 같은 맥락에서는 확장이 잘 되지 않습니다. 왜 극도로 긴 input에서 느릴까 ? self-attention 매커니즘 때문. self-att..