Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org 본 글은 "Attention is All You Need" 논문을 번역 및 분석했다. 일부 문장은 맥락에 따라 의역되었으며, 명확한 이해를 위해 부분적으로 설명을 추가했다. 주요 용어는 정확..
들어가기 전 Object Detection은 이미지에서 객체 위치를 찾고, 객체 클래스를 분류하는 문제를 말한다. 객체가 위치한 영역을 표시한 박스를 bounding box라고 하며, 줄여서 bbox라고 부른다. bbox는 좌측 상단 좌표 & 가로/세로 길이로 나타낼 수 있다. 이렇게 객체가 위치한 부분을 RoI, Region of Interest라고 한다. bbox를 찾는 대표적인 방법으로 Sliding window와 Selective search가 있다. Sliding window는 고정 크기의 박스를 계속 움직여가며 객체 위치를 찾는다. 모든 영역을 탐색하면 윈도우 크기를 변경해 가며 같은 작업을 반복한다. 윈도우 안에 객체가 있으면 1, 없으면 0이 나온다. Selective search는 색상,..