'딥러닝' 태그의 글 목록 (2 Page)

[논문리뷰] Vision language models are blind - VLM은 사실 장님이었나 ?

Introduction 최근 8개월 동안 Vision Language Models (VLMs)의 발전으로 다양한 이미지-텍스트 처리가 가능해졌습니다. VLM들은 장면 내 객체 식별, 복잡한 작업 수행 등에서 뛰어난 성능을 보이고 있습니다. 현재의 VLM 벤치마크들은 인간과 AI 간의 전반적인 격차를 측정하지만, 구체적인 시각적 한계를 지적하지는 않습니다.이 논문은 VLM이 실제로 인간처럼 이미지를 "보는지" 검증하기 위해 로우 레벨 차원에서 시각 작업에 대한 새로운 벤치마크를 제안합니다. 이 벤치마크는 2D 기하학적 도형만을 포함하며, 최소한의 지식을 요구합니다.연구진은 4개의 최신 VLM (GPT-4V, Gemini-1.5 Pro, Claude-3 Sonnet, Claude-3.5 Sonnet)을 8가..

format_list_bulleted 카테고리 없음
· 2024. 7. 11.

[논문리뷰] - SSM과 S4 모델들을 알아보자 ! ( + Transformer , Mamba ) - State Space Model for New-Generation Network Alternative to Transformers: A Survey

SSM(Space State Model)은 뭐야 ?SSM은 기존 Transformer(https://minyoungxi.tistory.com/104) 기반 모델에 비해 다양한 작업에서 계산 비용이 낮으면서 큰 잠재력을 보이며 주목받고 있습니다. 제어 이론 및 계산 신경 과학에 뿌리를 두고 있으며, 동적 시스템을 상태 변수로 모델링하여 딥러닝에 적용됩니다. 그렇다면 Transformer의 문제는 무엇일까요 ? Transormer는 Attention 기법을 통해서 일반적으로 장거리 종속성을 개선했지만, Transformer의 문제점은 유전체 또는 극도로 긴 텍스트와 같은 맥락에서는 확장이 잘 되지 않습니다. 왜 극도로 긴 input에서 느릴까 ? self-attention 매커니즘 때문. self-att..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2024. 6. 24.

[논문리뷰] FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning - 더 빠르고 더 좋다 !

논문 요약 FlashAttention 2는 FlashAttention의 후속 논문으로, GPU에서 더욱 효율적인 어텐션 연산을 수행하기 위한 최적화 기법들을 제안합니다. 기존의 Attention 연산과의 차이점을 비교해보며 본 논문의 주요 Contribution을 위주로 한 번 살펴보겠습니다. Contribution 1. 알고리즘 최적화를 통한 비-행렬곱 연산 감소- FlashAttention-2는 softmax 연산 등에서 불필요한 연산을 제거하고 행렬곱 위주의 연산을 수행하도록 알고리즘을 개선했습니다.- GPU에서 행렬곱이 훨씬 빠르게 수행되므로 전체 연산 효율이 크게 향상되었습니다.- 반면 기존의 어텐션 구현에서는 비-행렬곱 연산이 상대적으로 많았습니다.비행렬곱 연산(non-matrix mult..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2024. 5. 28.

[논문리뷰] - ⭐️Mamba: Linear-Time Sequence Modeling with Selective State Spaces⭐️ - 맘바 ! Transformer의 대체자 ?

1. Interesting Point"We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities, allowing the model to selectively propagate or forget information along the sequence length dimension depending on the current..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2024. 5. 26.

[논문리뷰] - xLSTM: Extended Long Short-Term Memory - LSTM을 트랜스포머처럼 만들어보자고 ?

1. Introduction이전 Transformer 논문 리뷰 : https://minyoungxi.tistory.com/104 [논문리뷰] Attention is all you need - 트랜스포머를 모르면 취업을 못해요Transformer의 탄생 배경 자연어 처리 분야에서 순환신경망(RNN)은 오랫동안 메인 모델로 사용되어 왔습니다. 하지만 RNN은 길이가 길어질수록 성능이 저하되는 단점이 있었습니다. 그래서 어텐션(Attminyoungxi.tistory.com원문 : https://arxiv.org/abs/2405.04517 xLSTM: Extended Long Short-Term MemoryIn the 1990s, the constant error carousel and gating were ..

format_list_bulleted 카테고리 없음
· 2024. 5. 16.

[논문리뷰] Attention is all you need - 트랜스포머를 모르면 취업을 못해요

Transformer의 탄생 배경자연어 처리 분야에서 순환신경망(RNN)은 오랫동안 메인 모델로 사용되어 왔습니다. 하지만 RNN은 길이가 길어질수록 성능이 저하되는 단점이 있었습니다. 그래서 어텐션(Attention) 메커니즘을 통해 입력과 출력 사이의 의존성을 직접적으로 모델링할 수 있는 트랜스포머가 제안되었습니다. 기존 순차 모델들이 단어 하나하나를 차례로 처리했던 것과 달리, 트랜스포머는 어텐션을 통해 전체 문장을 한번에 참조할 수 있게 되었습니다. 이를 통해 병렬 처리가 가능해져 계산 효율이 크게 향상되었습니다. 또한 문장의 길이에 상관없이 성능이 유지되는 장점도 가지고 있습니다. 이렇게 혁신적인 아이디어를 제시한 ‘Attention is all you need’ 논문은 트랜스포머 모델의 기반이..

format_list_bulleted Data science/딥러닝 논문 리뷰
· 2024. 4. 18.