목록딥러닝/딥러닝 이론 (15)
Logical Scribbles
Object Detection task에서 bounding box를 뽑으면 수천 개를 뽑게 된다. 수천 개의 Bounding Box 안에 우리가 찾고자 하는 물체 혹은 객체가 있는 박스가 평균 수십 개 있다고 가정하면 나머지 박스들 즉, 물체를 포함하지 않는 박스들은 어떻게 해야할까? 이러한 방법은 문제가 있었는데 라벨이 붙은 물체와 그렇지 않은 background 물체의 수의 차이로 인해 제대로 된 학습 진행이 되지 않는다는 것이었다. 즉, 하나의 물체에는 여러개의 bounding box가 나타나게 되는데 그 과정에서 비슷한 크기의 수많은 bounding box들도 생성이 되고, 그것들 중 배경과 객체의 구분을 잘 해야하는데 이것이 쉽지 않다는 것이다. 어떤 여행객들이 여행을 가서 사진을 찍었다고 해보..
다음과 같은 재미있고 엄청난 문제를 생각해보자. 파란색의 동그라미 종족과 빨간색의 세모 종족은 서로 사이가 매우 나쁘다. 만약 그들이 함께 산다면 대참사가 일어난다고 가정해보자. 따라서 우리는 그들의 국경을 그어야 하는 상황이다. 우선 그냥 내 마음대로 국경을 그어보겠다. 너무 비인간적으로 국경을 그린 것 같다. 왜냐하면, 국경에 가장 가까운 동그라미와 세모가 가까워도 너무 가깝기 때문이다. 다시 그리자. 국경을 다시 그려봤다. 하지만 빨간색 세모 종족의 반발이 엄청날 것이다. 왜냐햐면 그들의 땅의 면적이 줄었기 때문이다. 그렇다면 두 종족이 모두 만족할 수 있는 국경은 어떻게 그어야할까? 답은 간단하다. 국경에서 가장 가까운 종족까지의 거리가 가장 멀도록 설정하면 되는 것이다. 직관적으로는 간단하지만 ..
이번 포스팅에서는 객체 탐지 논문을 읽다보면 많이 등장하는 2 stage detector와 1 stage detector에 대해 알아보자. 2 stage detector와 1 stage detector의 가장 큰 차이는 용어 그대로 단계에 있다. 2 stage detector 모델들은 Region Proposal 과정을 진행한 이후에 classification을 진행하기 때문에 두 단계를 통해 객체 탐지를 진행하고, 1 stage detector 모델들은 이들을 한단계로 묶어 진행한다. 먼저 Region Proposal이 무엇인지 살펴보자. Region Proposal 기존에는 이미지의 객체 탐지를 위해 'Sliding Window' 방식을 이용했었다. Sliding Window 방식은 이미지에서 모든 ..
Subgradient method의 convergence theorem과 convergence rate의 증명에서 사용되는 basic inequality를 증명해 보았다. 끝!
이번 포스팅에서는 'Histogram of Oriented Gradient for human detecting' 라고도 불리는 HOG에 대해 알아보자. 내가 HOG를 공부하게 된 계기는 R-CNN 논문을 읽다가 제일 처음 막혔던 부분이었기 때문이다. R-CNN 논문에서 그 때 당시의 문제점으로 HOG 방식이 정체되고 있다는 말이 나오는데, HOG 방식이 대체 뭔가하고 알아보았다. 우선 Histogram of Oriented Gradient for human detecting을 직역해보자. '인간 탐지를 위한 기울기 기반의 히스토그램' 아직은 무슨말인지 잘 이해가 되지 않는다. 먼저 GPT한테 물어보았다. 대충 감이 잡힌다. 처음에는 이미지의 픽셀에 대해 그래디언트를 계산한 후 셀 내에서 이의 방향과 크기..
Object Detection 관련 논문을 읽으면 거의 무조건 나오는 IoU와 mAP에 대해 알아보도록 하자. 물론 나도 mAP에 대한 개념이 정확하지 않아서 공부하는겸 작성하는 글이므로, 오류가 있으면 지적 바란다. 1. IoU 머신러닝을 공부해 본적 있다면 IoU는 한번쯤 들어보았을 것이다. 간단히 말해서 IoU란, 정답 영역과 예측 영역이 얼만큼 겹쳐져 있는지를 평가하는 지표이다. 당연히 IoU가 크면 모델이 object detection을 잘한다는 해석을 할 수 있을 것이다. 수식으로 표현하면 다음과 같다. 분모는 각 영역의 넓이를 더한 후 겹치는 영역의 넓이를 1번 빼준 것이고 (왜냐하면 두 영역의 넓이를 더하면 겹치는 영역이 2번 더해지는 꼴이기 때문), 분자는 겹치는 영역의 넓이이다. 2. ..
공부를 하며 Batch-Nomalization에 대한 정리를 해보았다. 다음과 같은 NN이 있다고 하자. 우리는 mini-batch를 이용하여 NN을 학습시킬 것이다. 하지만! 빨간 점(노드)에 들어오는 input의 distribution은 batch마다 변화할 수 있다. (직관적으로 내가 이해한 바로는 어떤 batch를 잡았을때 그 batch만의 특징이 있을 수 있으며 그 batch마다 고유의 distribution이 있을 것이다. 결론은 이게 NN의 학습에 안좋다고 한다.) 따라서 output의 distribution도 batch마다 변화할 수 있을 것이다. 가령 Update 마다 이러한 분포를 가진 input이 들어온다고 할 때, 이러한 batch의 고유한 distribution은 학습 과정에 방해..