반응형
LIST
https://minyoungxi.tistory.com/52 논문 리뷰 - Vision Transformer 비전 트랜스포머 part2 https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리 minyoungxi.tistory.com 2021년 마이크로소프트 아시아에서 발표한 Swin Transformer에 대해 알아봅시다. ViT(Vision Transformer)는 이미지를 patch로 잘라 self attention을 하는데요, 이 논문에서 모든 patch가 self attention을 하..
https://arxiv.org/pdf/1512.04150.pdf Learning Deep Features for Discriminative Localization - 2015 기존의 CNN 모델에서는 Input → Conv layers → Fc layers → softmax 의 매커니즘을 통해 특정 이미지를 클래스로 분류하는 학습 과정을 거칩니다. 이는 매우 일반적인 방법으로 마지막 feature map을 flatten 하여 1차원 백터들로 만든 후에 이를 Fully Connected Network를 통과하여 Softmax로 분류하는 것이죠. Learning Deep Features for Discriminative Localization - Introduction ( 논문 발췌 부분 ) Despite..
YOLO 특징 객체 인식을 regression problem으로 접근 단일 네트워크 사용으로 FULL image 에서 bbox, class probabilities 예측 빠른 예측 속도 ( 단일 네트워크 때문 ) 배경에서 오탐지할 가능성이 적음 ( bbox 학습시 각 cell 마다 박스 1개 사용, cell 당 클래스 1개 할당 ) 일반화 가능한 객체 표현을 학습 pascal VOC 데이터셋으로 학습하고 다른 데이터셋을 예측해도 성능이 높음. 지역 제안 기반 모델보다 정확도가 낮음 작은 개체 식별 어려움 v1 ~ v6 까지 지속적으로 노력 입력 이미지와 산출 벡터 구조 객체의 중심이 있는 cell은 객체 인식의 기준으로 정합니다. ( Pr(obj) = 0 or 1 ) 객체의 중심이 있는 cell은 tar..
https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리소스를 사용 ViT의 단점 inductive bias의 부족으로 인해 CNN보다 데이터가 많이 요구 inductive bias → 학습자가 처음보는 입력에 대한 출력을 예측하기 위해 사용하는 일련의 가정(assumption) CNN은 입력에 대한 출력을 예측하기 위해 대표적으로 translation equivariance와 locality를 가정합니다. locality는 합성곱 연산을 할 때, 특정 영역만 보고 그 안에서 특징을 추출할 수 ..
우선 CNN ViT는 비전 분야의 새로운 패러다임입니다. 기존의 비전 분야에서는 CNN을 사용했습니다. CNN은 필터가 움직이면서 전체의 이미지를 부분적으로 인식하게 되죠? CNN은 한 번 연산시 국소적으로 이미지를 파악할 수 밖에 없습니다. ( 즉, 이미지 전체를 고려할 수 없습니다. ) 따라서 한 번에 이미지를 고려할 수 있도록 'attention'기법을 사용합니다. 초기에는 cnn과 attention 을 합친 모델이 많이 연구되었습니다. 하지만 본 논문에 등장하는 ViT는 합성곱 연산을 사용하지 않고 attention만을 사용하여 모델을 구성합니다. ( 현재 ImageNet 분류 1, 2위 등극. 3~7위는 EffenNet CNN 기반 모델. ) CNN + attention 각 픽셀별로 중요한 정도..
https://arxiv.org/pdf/1912.04958.pdf 논문 원본 https://minyoungxi.tistory.com/42 StyleGAN 2019 - 고해상도 이미지를 고퀄로 생성해보자 https://arxiv.org/pdf/1912.04958.pdf 논문 본문의 링크입니다. Contribution 본 논문에서 제안된 style-based generator로 고해상도 이미지를 높은 퀄리티로 생성합니다. Disentanglement를 측정하는 지표 두가지를 제 minyoungxi.tistory.com 필수 논문 : StyleGAN - 이전 포스팅 논문 소개 다양한 고해상도의 이미지를 생성할 수 있습니다. 성능 개선 : 기존의 StyleGAN보다 더 높은 품질의 이미지를 생성하고, 이미지를 ..