반응형
LIST
1. Introduction 논문이 다루는 task본 논문이 다루는 task는 온톨로지 엔지니어링에 딥러닝 기술, 특히 언어 모델을 통합하는 것입니다. 온톨로지 엔지니어링은 지식 표현과 추론을 위한 핵심 분야로, 온톨로지 설계, 구축, 평가, 유지보수 등 다양한 단계를 포함합니다. 온톨로지는 인간과 기계 모두 이해할 수 있는 개념과 관계의 체계를 제공함으로써 지식 공유와 활용을 촉진합니다. 최근 거대 언어 모델의 등장으로 기존 온톨로지 엔지니어링 방식의 한계를 극복할 수 있는 가능성이 열리고 있습니다. 예를 들어, BERT 등의 언어 모델은 풍부한 맥락 정보를 활용해 개념 간 유사도를 판단할 수 있어 온톨로지 정렬이나 완성 작업에 효과적입니다. 그러나 딥러닝 모델은 그 예측 과정이 불투명하고 대량의 학..
이전 논문 : Transformer - attentioon is all you need 1. Introduction 논문이 다루는 task Input : 무한한 길이의 시퀀스 (Infinitely long sequences) Output : 입력 시퀀스에 대한 처리 결과 (Processed output of the input sequence) 해당 task에서 기존 연구 한계점 Transformer의 quadratic attention complexity로 인해 무한한 길이의 입력을 처리하는 데 한계가 있습니다. quadratic attention complexity란 어텐션 메커니즘의 계산 복잡도를 의미합니다. Transformer에서 사용되는 어텐션 메커니즘은 각 토큰이 다른 모든 토큰과의 관계를 계..
Abstract We introduce VASA, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, VASA-1, is capable of not only producing lip movements that are exquisitely synchronized with the audio, but also capturing a large spectrum of facial nuances and natural head motions that contribute to..
Transformer의 탄생 배경자연어 처리 분야에서 순환신경망(RNN)은 오랫동안 메인 모델로 사용되어 왔습니다. 하지만 RNN은 길이가 길어질수록 성능이 저하되는 단점이 있었습니다. 그래서 어텐션(Attention) 메커니즘을 통해 입력과 출력 사이의 의존성을 직접적으로 모델링할 수 있는 트랜스포머가 제안되었습니다. 기존 순차 모델들이 단어 하나하나를 차례로 처리했던 것과 달리, 트랜스포머는 어텐션을 통해 전체 문장을 한번에 참조할 수 있게 되었습니다. 이를 통해 병렬 처리가 가능해져 계산 효율이 크게 향상되었습니다. 또한 문장의 길이에 상관없이 성능이 유지되는 장점도 가지고 있습니다. 이렇게 혁신적인 아이디어를 제시한 ‘Attention is all you need’ 논문은 트랜스포머 모델의 기반이..
EfficientViT - [https://minyoungxi.tistory.com/94] multi-head self attention은 본 논문의 연구에서 텐서의 재구성과 element wise 연산 때문에 메모리 사용이 비효율적이라고 언급되었습니다. 트랜스포머 모델은 일반적으로 메모리 바운드되며, 특히 MHSA에서의 메모리 바운드 연산은 GPU/CPUs의 컴퓨팅 파워를 충분히 활용하지 못하게 하여 모델의 실행 속도에 부정적인 영향을 줍니다. MHSA와 피드-포워드 네트워크(FFN) 층의 비율을 적절히 조정함으로써 메모리 접근 시간을 상당히 줄일 수 있으며, 각 어텐션 헤드에 다양한 특징을 제공함으로써 중복을 줄이고 계산 효율성을 향상시킬 수 있다고 합니다. 최근 연구에 따르면 메모리 비효율적인 연산..
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Metadata [!meta]- Metadata – PDF Title:: EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Authors:: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan, Year:: 2023 ItemType:: preprint Keywords:: Computer Science - Computer Vision and Pattern Recognition Related:: AB..