반응형
LIST
Query, Key, Value를 활용해 Attention을 계산해보자. Attention이라고 한다면 어떤 것에 대한 Attention인지 불명확하다. 구체적으로, Query에 대한 Attention이다. 이 점을 꼭 인지하고 넘어가자. 이후부터는 Query, Key, Value를 각각 Q">Q, K">K, V">V로 축약해 부른다. Query의 Attention은 다음과 같은 수식으로 계산된다. Q">Q는 현재 시점의 token을, K">K와 V">V는 Attention을 구하고자 하는 대상 token을 의미했다. 우선은 빠른 이해를 돕기 위해 Q">Q, K">K, V">V가 모두 구해졌다고 가정한다. 위의 예시 문장을 다시 가져와 ‘it’과 ‘animal’ 사이의 Attention을 구한다고 해보자..
Attention is all you need [Paper] : (https://arxiv.org/abs/1706.03762) 기존 자연어처리 분야에서 엄청난 혁신을 불러온 논문 'Attention all you need'에 대해서 리뷰해봅시다 ! 본 리뷰는 논문 리뷰와 후에 pytorch를 사용해 구현해보기까지 준비했습니다. 저는 NLP에 크게 관심이 없지만 attention 기법은 자연어처리뿐만 아니라 비전 분야에서도 SOTA를 달성했습니다. 이전에 포스팅한 vit 그리고 swim-transformer 등 attention과 transformer에 대한 학습은 인공지능을 공부한다면 필수적입니다. 딥러닝 기반의 기계 번역 발전 과정 2021년 기준으로 최신 고성능 모델들은 Transfor..
https://minyoungxi.tistory.com/52 논문 리뷰 - Vision Transformer 비전 트랜스포머 part2 https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리 minyoungxi.tistory.com 2021년 마이크로소프트 아시아에서 발표한 Swin Transformer에 대해 알아봅시다. ViT(Vision Transformer)는 이미지를 patch로 잘라 self attention을 하는데요, 이 논문에서 모든 patch가 self attention을 하..
https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리소스를 사용 ViT의 단점 inductive bias의 부족으로 인해 CNN보다 데이터가 많이 요구 inductive bias → 학습자가 처음보는 입력에 대한 출력을 예측하기 위해 사용하는 일련의 가정(assumption) CNN은 입력에 대한 출력을 예측하기 위해 대표적으로 translation equivariance와 locality를 가정합니다. locality는 합성곱 연산을 할 때, 특정 영역만 보고 그 안에서 특징을 추출할 수 ..
우선 CNN ViT는 비전 분야의 새로운 패러다임입니다. 기존의 비전 분야에서는 CNN을 사용했습니다. CNN은 필터가 움직이면서 전체의 이미지를 부분적으로 인식하게 되죠? CNN은 한 번 연산시 국소적으로 이미지를 파악할 수 밖에 없습니다. ( 즉, 이미지 전체를 고려할 수 없습니다. ) 따라서 한 번에 이미지를 고려할 수 있도록 'attention'기법을 사용합니다. 초기에는 cnn과 attention 을 합친 모델이 많이 연구되었습니다. 하지만 본 논문에 등장하는 ViT는 합성곱 연산을 사용하지 않고 attention만을 사용하여 모델을 구성합니다. ( 현재 ImageNet 분류 1, 2위 등극. 3~7위는 EffenNet CNN 기반 모델. ) CNN + attention 각 픽셀별로 중요한 정도..