목록Papers (17)
Logical Scribbles
이번 포스팅에서는 R-CNN을 소개한 논문, "Rich feature hierarchies for accurate object detection and semantic segmentation" 에 대해 알아보자. 이 논문은 객체 탐지에서 2-stage-detection 모델의 시초급 논문이다. 위의 객체 탐지 논문 리스트에서도 볼 수 있듯이, R-CNN 논문은 당당히 필수 논문 중 가장 첫번째로 읽어야할 논문이라고 소개되어있다. (빨간색 글씨가 필수 논문) 2-stage-detector와 1-stage-detector에 대해서는 아래의 글에 자세히 설명이 되어있다. [객체 탐지] 2-Stage Dectector 와 1-Stage Detector 이번 포스팅에서는 객체 탐지 논문을 읽다보면 많이 등장하는 ..
이번에는 이 AlexNet의 구조에 대해 빠르게 복습한 후 구현을 해보도록 하자. 구현하는데 있어서 두가지 정도의 어려움이 있었는데, 이후 설명하도록 하겠다. AlexNet에는 5개의 Convolutional layer와 3개의 Fully-connected layer가 존재한다. AlexNet에 입력 되는 이미지의 사이즈는 227 x 227 x 3 이다. 위의 그림에는 224로 되어 있는데 잘못된 것이다. (저자가 이후에 227이 맞다고 정정하였다고 한다.) 이미지의 전처리 과정을 살펴보면 데이터셋의 이미지의 사이즈를 먼저 256*256 사이즈로 crop 한 뒤, 227*227사이즈로 random crop 한다. 이후 horizontal reflection을 적용해야하고, PCA를 적용해야 한다. 이 과..
이번 포스팅은 AlexNet에 대한 논문이다. 논문 제목은 'ImageNet Classification with Deep Convolutional Neural Networks ' 이고, AlexNet은 VGG를 소개한 포스팅에서 말했듯 세상에 딥러닝의 시대가 도래했음을 알린 모델이기도 하다. 또한 2012년 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)의 우승자이다. AlexNet은 LeNet-5 등장 이후 약 10년 뒤에 나온 모델이며, 해당 연도 이미지넷 대회에서 경쟁팀 대비 정확도가 약 10% 정도 앞서있는 모델이었다. 이 모델이 AlexNet이라고 이름 붙여진 이유는 Alex Krizhevsky 라는 이름을 가진 딥러닝 대가 제프리 힌튼 ..
이번 포스팅은 VGG 논문 구현이다. 만약 VGG 논문 혹은 논문 리뷰를 읽지 않았다면 읽고 보는 것을 추천한다. https://stydy-sturdy.tistory.com/7 [논문 리뷰] Very Deep Convolutional Networks For Large-Scale Image Recognition (VGG) - 구조, Training 그리고 Test 오늘은 ICLR 2015에 개제된 논문 'Very Deep Convolutional Networks For Large-Scale Image Recognition' 에 대해 알아보자. 많이들 'VGG' 라고 부르는 모델을 소개하고 있는 논문이다. https://arxiv.org/pdf/1409.1556v6.pdf 2010년 stydy-sturdy...
지난 포스팅에 이어서 VGG모델의 실험 결과를 살펴보도록 하자. Dataset ILSVRC-2012 dataset(이미지넷)을 사용하였다. 이 데이터셋은 1000개의 class를 포함하고 있고, 3종류로 split 되어 있다. (Training data, Validation data, Testing data) 이러한 데이터셋의 1000개의 class를 classification 하는 것에 있어 performance의 측정 방식은 두가지이다. Top-1 Error : 예측이 잘못된 이미지의 비율 Top-5 Error : 예측된 top-5 class에 정답이 없는 이미지의 비율 ILSVRC-2012에서는 두번째 측정 방식을 주요 평가 지표로 사용하였다고 한다. 또한, 이 실험에서는 이미지넷 데이터셋의 Val..
오늘은 ICLR 2015에 개제된 논문 'Very Deep Convolutional Networks For Large-Scale Image Recognition' 에 대해 알아보자. 많이들 'VGG' 라고 부르는 모델을 소개하고 있는 논문이다. https://arxiv.org/pdf/1409.1556v6.pdf 2010년 컴퓨터 비전 분야에는 ILSVRC (ImageNet Large Scale Visual Recognition Challenge) 라는 대회가 시작 되었다. 이 대회는 'ImageNet'이라는 데이터셋을 이용하여 누가 누가 classification을 잘 하나 겨루는 대회이다. (ImageNet 데이터셋은 2023년 기준으로 1,420만개의 이미지와 20,000개 이상의 카테고리 분류를 제..
이번에는 바로 직전 글이었던 LeNet-5 모델을 직접 Google Colab과 Pytorch를 이용하여 만들어 보기로 하자. https://stydy-sturdy.tistory.com/4 [논문 리뷰] Gradient-Based Learning Applied to Document Recognization(LeNet-5) - 시대 배경 그리고 구조 LeNet-5의 구조만 훑으며 읽고 싶다면 바로 3. LeNet-5를 읽으시면 됩니다. 이번에는 CNN에서의 조상급 논문에 대해 알아보자. 논문을 읽어보기 전, 이 논문이 탄생하게 된 시대 배경을 알고 있으면 더 stydy-sturdy.tistory.com 우선 다시 한번 LeNet-5 모델의 구조를 살펴보자. ※ 본 논문에서는 Loss function을 MS..
LeNet-5의 구조만 훑으며 읽고 싶다면 바로 3. LeNet-5를 읽으시면 됩니다. 이번에는 CNN에서의 조상급 논문에 대해 알아보자. 논문을 읽어보기 전, 이 논문이 탄생하게 된 시대 배경을 알고 있으면 더 도움이 될 것 같다. 1. 시대 배경 1. 1950년대, 시각피질 구조에 대한 연구가 진행되었다. 실험은 고양이를 이용하였고, 고양이에게 시각 정보가 주어졌을 때, 고양이의 뉴런들에 대해 관찰하는 것이었다. 결과적으로 고양이의 시야에 자극이 들어왔을 때, 전체 뉴런이 아닌 특정한 부분의 뉴런만이 활성화 되는 것을 알게 되었다. 즉, 고양이의 시각 피질 안의 뉴런들은 일정한 시각적 자극에만 반응하는 '국부 수용 영역 (Local receptive field)' 를 갖는다는 것을, 그리고 이 국부 ..