목록딥러닝/딥러닝 이론 (15)
Logical Scribbles
시험기간이 끝나고 오랜만에 글을 써본다. 내 공부는 꾸준히 하고 있었지만 시험 기간이 겹쳐 글을 쓸 시간이 도저히 없었다. (핑계..) 오늘은 여러 논문들을 들으며 헷갈렸던 개념들, 특히 'Visual Prompt Tuning' 이라는 논문과 자연어 처리 쪽의 논문들을 읽으며 헷갈렸던 개념들(Prompt tuning, Prefix tuning)에 대해 정리를 해보고 스스로 명확하게 하고자 한다. 'Visual Prompt Tuning' 이라는 논문에 대해서는 추후 리뷰를 작성할 예정이다. 혹시 관심이 있는 분이라면 읽어보시길 바란다! Visual Prompt Tuning The current modus operandi in adapting pre-trained models involves updating..
이번 포스팅에서는 전이학습에 대해 알아보자. 우선, 아래의 퀴즈를 풀며 시작해보자. 아르마딜로와 천산갑(Pangolin)을 구분하는 간단한 문제이다. 평소에 아르마딜로와 천산갑의 외형적 차이를 모르는 사람이라도 10초안에 오른쪽 그림이 천산갑임을 알아차릴 수 있을 것이다. 이제 스스로에게 물어보자. 어떻게 정답을 맞추었을까? 나는 처음에 귀의 크기를 보고 판단했다. 아르마딜로는 천산갑에 비해 귀가 상대적으로 크다고 판단했기 때문이다. 정답을 맞춘 후 두 동물의 사진을 다시 보니 천산갑의 비늘이 용의 비늘처럼 특이하다는 것도 알게 되었다. (사람마다 정답을 맞추는 근거는 다를 것이다.) 전통적인 딥러닝 모델에게 똑같은 상황이 주어진다면 (각 동물의 사진이 두장씩 주어지고, 정답을 맞춰야함), 정답을 맞출 ..
이번 포스팅에서는 NLP 및 트랜스포머 등등에서 등장하는 워드 임베딩에 대해 알아보자. 컴퓨터가 사람처럼 단어를 보고 바로 이해할 수 있었다면 이후 등장하는 원-핫 인코딩이나 워드 임베딩은 필요하지 않았을 것이다. 하지만 컴퓨터는 숫자에 익숙한 친구이기 때문에, 우리는 친절히 단어들을 이 컴퓨터가 이해할 수 있는 언어로 바꿔주는 과정이 필수적이었다. 이번 포스팅에서는 그러한 방법 두가지를 설명할 것이다. 원-핫 인코딩과 워드 임베딩이다. 핵심 내용은 워드 임베딩이 될 것이다. 4가지 키워드(희소 벡터, 밀집 벡터, 워드 임베딩, 임베딩 벡터)를 잘 이해해보자! 1. 원-핫 인코딩 먼저 원핫 인코딩에 대해 알아보자. 원-핫 인코딩은 multi-class classification에서 자주 등장하는 용어이다..
이번 포스팅은 어텐션 메커니즘에 대한 글이다. 어텐션 메커니즘을 공부하게 된 계기는 역시 트랜스포머 모델을 이해하기 위해서이다. "Attention Is All You Need" 논문에 등장한 트랜스포머 모델 구조를 살펴보며 시작해보자. 위 구조에서 지금까지 소개한 것과 소개하지 않은 것을 구분해보았다. "Add & Norm"은 Residual link와 Nomralization을 진행하는 부분으로, ResNet에서 소개된 잔차연결을 이용한 뒤, 아래 포스팅에 소개되어 있는 nomalization을 수행한다. 약간 다른점은 layer nomalization을 사용한다는 점이다. layer nomalization은 batch에 대한 의존도를 줄이고자 사용하며, layer를 기반으로 nomalization을..
이전 포스팅에서 RNN에 대해 다루었다. 이번에는 RNN에서 조금 더 나아가보자. RNN에 대한 자세한 내용은 다음 글을 참고하면 된다. [딥러닝] RNN(Recurrent Neural Network)이란? 이번 포스팅에서는 가장 기본적인 인공 시퀀스 모델인 RNN에 대해 알아보자. RNN을 한글로 풀어서 쓰면 '순환 신경망'이 된다. 즉 network 안에서 '순환'하는 무언가가 핵심인 모델이라는 것인데, 이 stydy-sturdy.tistory.com 옛말에 '거자일소' (去者日疎) 라는 말이 있다.아무리 친밀한 사이라고 해도 죽어서 세상을 떠나면 마음에서 멀어짐을 뜻하는 사자성어이다. 요새는 몸이 멀어지면 마음도 멀어진다는 뜻으로 자주 쓰인다고 한다. (장거리 연애에 대한 논쟁에서 몸이 멀어지면 마..
이번 포스팅에서는 가장 기본적인 인공 시퀀스 모델인 RNN에 대해 알아보자. RNN을 한글로 풀어서 쓰면 '순환 신경망'이 된다. 즉 network 안에서 '순환'하는 무언가가 핵심인 모델이라는 것인데, 이 '순환'이 의미하는 바에 초점을 두고 알아보도록 하자. 번역기를 만든다고 생각해보자. 번역기에 주어지는 입력은 번역하고자 하는 문장이다. 문장은 '단어의 시퀀스'이다. 여기서 '시퀀스'란 말 그대로 순서가 있는 데이터를 가리킨다. 즉 번역기의 인풋은 단어가 순서대로 배열되어 있는 데이터이다. 이와 같이 시퀀스 데이터를 처리하기 위해 고안된 모델을 시퀀스 모델이라고 한다. 마찬가지로 주식의 가격은 시간에 따라 변화하므로 주가를 예측하고자 할 때에도 시퀀스 모델을 사용해야할 것이다. 이러한 시퀀스 모델 ..
이번 포스팅에서는 객체 탐지에서 수많은 bounding box(BB)를 컨트롤 하는 방법들을 알아보자. 객체 탐지 과정 중에는 객체가 존재하는 위치 주변에 높은 스코어를 가진 여러개의 BB가 생성이 되는데, 이 중 정말 객체가 있을만한 하나만의 BB를 선택하고 싶은 것이다. 이때 적용하는 기법이 NMS(Non-Maximum Suppression)이다. 1. NMS ※NMS의 과정 모든 Bounding box는 자신이 해당 객체를 얼마나 잘 잡아내지 나타내는 confidence score를 가진다.(보통 IoU 값 혹은 IoU값 * softmax 결과값) NMS는 모든 BB에 대하여 threshold 이하의 confidence score를 가지는 BB는 제거한다. 즉, Confidence score가 일정..
[객체 탐지] 2-Stage Dectector 와 1-Stage Detector 이번 포스팅에서는 객체 탐지 논문을 읽다보면 많이 등장하는 2 stage detector와 1 stage detector에 대해 알아보자. 2 stage detector와 1 stage detector의 가장 큰 차이는 용어 그대로 단계에 있다. 2 stage detector stydy-sturdy.tistory.com Sliding Window 방식의 단점은 이전 글에서 소개한 바 있다. 위의 글에서 sliding window 방식의 단점으로 여러개의 윈도우 사이즈, 그리고 여러개의 이미지 사이즈를 이용하여 찾아야 다양한 크기의 객체를 찾을 수 있어 모든 경우를 따져야 하므로 수행시간도 오래 걸리고, 생각보다 적절한 검출이..