반응형
LIST
https://minyoungxi.tistory.com/52 논문 리뷰 - Vision Transformer 비전 트랜스포머 part2 https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리 minyoungxi.tistory.com 2021년 마이크로소프트 아시아에서 발표한 Swin Transformer에 대해 알아봅시다. ViT(Vision Transformer)는 이미지를 patch로 잘라 self attention을 하는데요, 이 논문에서 모든 patch가 self attention을 하..
YOLO 특징 객체 인식을 regression problem으로 접근 단일 네트워크 사용으로 FULL image 에서 bbox, class probabilities 예측 빠른 예측 속도 ( 단일 네트워크 때문 ) 배경에서 오탐지할 가능성이 적음 ( bbox 학습시 각 cell 마다 박스 1개 사용, cell 당 클래스 1개 할당 ) 일반화 가능한 객체 표현을 학습 pascal VOC 데이터셋으로 학습하고 다른 데이터셋을 예측해도 성능이 높음. 지역 제안 기반 모델보다 정확도가 낮음 작은 개체 식별 어려움 v1 ~ v6 까지 지속적으로 노력 입력 이미지와 산출 벡터 구조 객체의 중심이 있는 cell은 객체 인식의 기준으로 정합니다. ( Pr(obj) = 0 or 1 ) 객체의 중심이 있는 cell은 tar..
https://arxiv.org/pdf/1912.04958.pdf 논문 본문의 링크입니다. Contribution 본 논문에서 제안된 style-based generator로 고해상도 이미지를 높은 퀄리티로 생성합니다. Disentanglement를 측정하는 지표 두가지를 제안합니다. 1024 x 1024 고해상도 사람얼굴 데이터셋 “FFHQ” 발표 Style-based generator StyleGAN 논문에서는 Discriminator나 loss에 관한 설명은 자세하게 나와있지 않고 style-based generator에 대한 설명이 대부분입니다. Style-based generator를 사용한 GAN 구조를 StyleGAN 이라고 합니다. generator를 제외한 다른 부분은 대체로 PGGAN의..