'AI/study' 카테고리의 글 목록

Image Segmentation with FCN

이미지 segmentation에 대해 다루며, CNN을 활용한 FCN(Fullly Convolutional Network)을 중심으로 소개한다. FCN은 논문 "Fully Convolutional Networks for Semantic Segmentation"에서 소개되었다.Image Segmentation이미지 segmentation은 픽셀 단위로 객체 클래스를 분류하는 문제를 말한다. 이는 각 픽셀마다 이미지 분류 문제를 푸는 것과 같다. c개의 레이블이 있다면 배경(0)을 하나의 레이블로 두고 총 c+1개의 레이블로 분류하는 문제가 된다.기존의 CNN classification 모델은 2차원 feature map을 1차원으로 압축해 결과를 출력한다. 만약 2차원 정보를 유지한 채로 분류를 진행한다면..

format_list_bulleted AI/study
· 2025. 2. 8.

ViTransformer: An Image is Worth 16x16 Words

논문: arXiv공식 구현: Pytorch-vision분석 코드: Github본문에 L000으로 적힌 링크는 줄번호로, 클릭하면 Pytorch에서 어떻게 구현되어 있는지 확인할 수 있다.AbstractTransformer는 자연어 처리 분야에서 활발히 사용되고 있지만, 비전(vision) 문제에 적용된 경우는 제한적이다. 우리는 이미지 조각을 순수한 transformer에 입력해 분류 문제를 풀었다. Vision Transformer(ViT)는 CNN과 비교해 SOTA를 달성했으며, 더 적은 연산 비용이 든다.IntroductionSelf-attention 구조의 transformer가 자연어 처리에서 좋은 성능을 보이고 있지만, 비전 분야는 여전히 CNN이 우세하다. 이로 인해 ResNet 기반의 모델..

format_list_bulleted AI/study
· 2025. 2. 6.

ResNet: Deep Residual Learning for Image Recognition

논문: Deep Residual Learning for Image Recognition구현: Github: Pytorch-Vision(공식)Abstract이전보다 더 깊은 모델을 학습레이어 입력을 참고하도록 재구성residual network는 깊은 모델의 정확도를 올림Introductionvanishing/exploding gradient가 모델 수렴을 방해한다. 이는 normalized initialization과 intermediate normalization layers로 해결할 수 있다.하지만 degradation 문제도 발생한다. 정확도가 낮아지지 않고 training error가 얕은 모델보다 크다.본 연구는 deep residual learning framework로 degradation ..

format_list_bulleted AI/study
· 2025. 2. 4.

AlexNet: ImageNet Classification with Deep Convolutional Neural Networks

ImageNet Classification with Deep Convolutional Neural Networks: 논문은 AlexNet을 소개한 논문으로 CNN 모델의 각 레이어가 어떤 역할을 하는지 잘 분석했다.논문을 정리한 글이며, CNN의 기본적인 개념을 생략하고 정리했다. 자세한 부분은 BLOG: CNN에 볼 수 있다.본 글에서 분석을 위해 사용한 코드는 Github에서 볼 수 있다.AbstractImageNet LSVRC-2012 대회에서 SOTA를 달성모델은 6000만 개의 파라미터와 650,000개 뉴런으로 구성5개의 convolutional layer + 3개의 fully-connected layer + 1000-way softmaxnon-saturating activation과 효율적인..

format_list_bulleted AI/study
· 2025. 2. 1.

Auto-Encoding Variational Bayes

Auto EncoderVariational Auto-Encoding을 이해하기 위해 기본적인 Auto-Encoding을 알아야 한다.Auto Encoder(AE)는 데이터를 압축하고 복원하는 단순한 모델이다. Linear layer을 통해 데이터 크기를 줄이고 복원한다. Auto Encoder 구성은 다음과 같다.Encoder: 데이터를 압축하는 신경망 (파란 부분)latent variable: 데이터가 압축된 벡터Decoder: 데이터를 복원하는 신경망 (초록 부분)다른 표현으로 Encoder를 Recognition model, Decoder를 Reconstruction model이라고 부른다.class Autoencoder(nn.Module): def __init__(self): s..

format_list_bulleted AI/study
· 2025. 1. 30.

Histograms of Oriented Gradients for Human Detection

글 원본: denev6.github.io/computer-vision/2025/01/27/hog.htmlHistograms of Oriented Gradients for Human Detection(vision.stanford) 논문을 바탕으로 HOG descriptor 작동 원리에 대해 분석한다. 논문을 완전히 번역하는 것이 아닌 내용을 분석하고 정리한 글이다. 따라서 실제 논문 목차와 다르며, 필자의 설명이 추가되었다.본 글에서 gradient는 이미지의 x 또는 y 방향에 대한 미분값을 말하며, 자세한 내용은 블로그: edge-detection에서 정의했다. SVM도 블로그: svm에서 다뤘었다.초록본 연구는 Linear SVM을 이용한 사람 검출 모델을 개발했다. 이미지 gradient를 이용해 ..

format_list_bulleted AI/study
· 2025. 1. 28.