'transformer' 태그의 글 목록 (2 Page)

Attention의 Query Key Value 자세히 보쟈

Query, Key, Value를 활용해 Attention을 계산해보자. Attention이라고 한다면 어떤 것에 대한 Attention인지 불명확하다. 구체적으로, Query에 대한 Attention이다. 이 점을 꼭 인지하고 넘어가자. 이후부터는 Query, Key, Value를 각각 Q">Q, K">K, V">V로 축약해 부른다. Query의 Attention은 다음과 같은 수식으로 계산된다. Q">Q는 현재 시점의 token을, K">K와 V">V는 Attention을 구하고자 하는 대상 token을 의미했다. 우선은 빠른 이해를 돕기 위해 Q">Q, K">K, V">V가 모두 구해졌다고 가정한다. 위의 예시 문장을 다시 가져와 ‘it’과 ‘animal’ 사이의 Attention을 구한다고 해보자..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2023. 7. 31.

논문리뷰 - Attention is all you need - 어텐션 플리즈 !

Attention is all you need [Paper] : (https://arxiv.org/abs/1706.03762) 기존 자연어처리 분야에서 엄청난 혁신을 불러온 논문 'Attention all you need'에 대해서 리뷰해봅시다 ! 본 리뷰는 논문 리뷰와 후에 pytorch를 사용해 구현해보기까지 준비했습니다. 저는 NLP에 크게 관심이 없지만 attention 기법은 자연어처리뿐만 아니라 비전 분야에서도 SOTA를 달성했습니다. 이전에 포스팅한 vit 그리고 swim-transformer 등 attention과 transformer에 대한 학습은 인공지능을 공부한다면 필수적입니다. 딥러닝 기반의 기계 번역 발전 과정 2021년 기준으로 최신 고성능 모델들은 Transfor..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2023. 7. 27.

논문리뷰 - Swin UNETR - Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

2022년 Lecture Notes in Computer Science 학회에 게재된 논문입니다. NVIDIA 팀에서 개발하고 UNETR에 Swin Transformer를 적용한 모델을 제안하였습니다. 이 모델은 Brain Tumor Segmentation task에서 SOTA를 기록했습니다. Brain Tumor Segmentation은 다양한 Scanner로 뇌를 촬영한 3d input을 받아 Brain Tumor을 Segmentation하는 Task입니다. Input 그림에서도 보다시피 뇌에 대한 MRI 사진이 Flair, t1, t1ce 등 서로 다른 스캐너와 프로토콜을 통해 출력되었습니다. 이런 이미지를 Multi-Modal Image라고 표현하기 때문에 이 분야는 Multi Modal DL 이..

format_list_bulleted 카테고리 없음
· 2023. 7. 14.

논문리뷰 - Swin Transformer - ViT를 개선해보자!

https://minyoungxi.tistory.com/52 논문 리뷰 - Vision Transformer 비전 트랜스포머 part2 https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리 minyoungxi.tistory.com 2021년 마이크로소프트 아시아에서 발표한 Swin Transformer에 대해 알아봅시다. ViT(Vision Transformer)는 이미지를 patch로 잘라 self attention을 하는데요, 이 논문에서 모든 patch가 self attention을 하..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2023. 7. 4.

논문 리뷰 - Vision Transformer 비전 트랜스포머 part2

https://minyoungxi.tistory.com/51 ViT의 장점 transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋음 large 스케일 학습에서 매우 우수한 성능을 보임 transfer learning 시 CNN보다 훈련에 더 적은 계산 리소스를 사용 ViT의 단점 inductive bias의 부족으로 인해 CNN보다 데이터가 많이 요구 inductive bias → 학습자가 처음보는 입력에 대한 출력을 예측하기 위해 사용하는 일련의 가정(assumption) CNN은 입력에 대한 출력을 예측하기 위해 대표적으로 translation equivariance와 locality를 가정합니다. locality는 합성곱 연산을 할 때, 특정 영역만 보고 그 안에서 특징을 추출할 수 ..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2023. 4. 6.

논문 리뷰 - Vision Transformer 비전 트랜스포머 ( 어텐션을 CV에 ?? ) part1

우선 CNN ViT는 비전 분야의 새로운 패러다임입니다. 기존의 비전 분야에서는 CNN을 사용했습니다. CNN은 필터가 움직이면서 전체의 이미지를 부분적으로 인식하게 되죠? CNN은 한 번 연산시 국소적으로 이미지를 파악할 수 밖에 없습니다. ( 즉, 이미지 전체를 고려할 수 없습니다. ) 따라서 한 번에 이미지를 고려할 수 있도록 'attention'기법을 사용합니다. 초기에는 cnn과 attention 을 합친 모델이 많이 연구되었습니다. 하지만 본 논문에 등장하는 ViT는 합성곱 연산을 사용하지 않고 attention만을 사용하여 모델을 구성합니다. ( 현재 ImageNet 분류 1, 2위 등극. 3~7위는 EffenNet CNN 기반 모델. ) CNN + attention 각 픽셀별로 중요한 정도..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2023. 4. 6.