'기타 주제' 카테고리의 글 목록 (8 Page)

Relational Database & Algebra

Relational Database Relational Database는 관계형 데이터베이스를 뜻한다. 관계형 데이터베이스는 행(튜플)과 열(속성)로 이루어지는 테이블 형태로 표현할 수 있다. 상품 번호 상품명 보관 창고 D12 키보드 EF4D B53 생수 AD1F 위와 같이 여러 데이터들이 서로 어떠한 관계를 가지고 있는지 파악할 수 있다는 장점이 있다. 여기서 [상품 번호, 상품명, 보관 창고]는 데이터의 속성이며, (D12, 키보드, EF4D)와 같은 데이터 열을 튜플이라고 한다. Key 관계형 데이터는 {key : value}의 관계로 볼 수 있다. Super_key ⊃ Candidate_key ⊃ Primary_key Super key: (슈퍼 키) 데이터 열을 유일하게 구분할 수 있는 속성의 ..

format_list_bulleted 기타 주제
· 2022. 9. 28.

Batch Normalization

Batch 학습을 위해 사용할 데이터가 너무 많을 때 한 번에 학습시키는데 비용이 많이 들기 때문에 여러 개의 그룹으로 나누어 학습한다. 이때 나누어진 그룹을 Batch라고 한다. Batch Normaliztion Batch Normalization은 layer를 통과할 때마다 데이터 분포가 달라지는 Internal Covariate Shift를 해결할 수 있다. 따라서 정규화를 통해 안정적으로 학습될 수 있도록 한다. 정규화 스케일링 정규화란 데이터의 분포를 N(0, 1)로 조정하는 과정이다. 다시 말해 평균을 0, 분산을 1로 조정하는 과정이다. 아래 그래프에서 초록색 그래프가 정규화된 그래프이다. batch마다 분포가 다르기 때문에 정규화를 통해 일정하게 학습이 되도록 한다. 그렇기 때문에 정규화는..

format_list_bulleted 기타 주제/머신러닝 & 딥러닝
· 2022. 9. 25.

Random Forest (Decision Tree)

Impurity 만약 초록 동그라미와 주황 네모를 두 상자에 분류하는 문제를 푼다고 가정하자. A와 B를 비교했을 때 A가 더 잘 분류했다고 할 수 있다. 그 이유는 A의 두 상자 안에 들어있는 도형이 더 일관성 있기 때문이다. 이러한 개념을 불순도(impurity)로 설명한다. 위 상황에서는 B의 불순도가 더 높다고 할 수 있다. 그리고 불순도를 나타내는 대표적인 지표가 엔트로피(entropy)와 지니 불순도(Gini impurity)이다. Entropy $Entropy(t)=-\sum_i^c p(i|t)log_2p(i|t)$ Gini Impurity $Gini(t)=1-\sum_i^c p(i|t)^2$ * p(i|t)는 노드 t에서 i 레이블에 속한 데이터의 비율을 뜻한다. 계산 예시 데이터: [ 1..

format_list_bulleted 기타 주제/머신러닝 & 딥러닝
· 2022. 9. 24.

Naive Bayesian - 텍스트 분류

문제 만약 "I do not want it"라는 문장이 있다면, 해당 문장이 긍정인지 부정인지 분류하는 문제를 푼다고 생각하자. 해당 문제를 아래와 같이 표현할 수 있다. $P(positive | I, do, not, want, it)$ $P(negative | I, do, not, want, it)$ 위 수식을 자세하게 분석해 보면 [I, do, not, want, it]이 문장에 있을 때, positive일 확률과 negative일 확률을 각각 계산하는 것이다. 만약 positive가 더 크면 긍정, 반대면 부정을 뜻한다. Bayes rule 활용 베이즈 정리를 활용하면 위 문제를 쉽게 풀 수 있다. $P(label | tokens)=\cfrac{P(tokens | label)P(label)}{P(t..

format_list_bulleted 기타 주제/머신러닝 & 딥러닝
· 2022. 9. 21.

컴퓨터 시스템

컴퓨터가 작동하기 위해 물리적으로 하드웨어(Hardware)가 필요하다. 이러한 하드웨어 위에서 이루어지는 수행 명령을 통칭해서 소프트웨어(software)라고 한다. 소프트웨어도 OS와 같은 시스템 소프트웨어와 현재 사용 중인 웹 브라우저와 같은 응용 소프트웨어로 나눌 수 있다. 하드웨어의 구성 메인 보드(main board, mother board): IC 칩들, 메모리 모듈 등 주요 장치가 부착되며 대표적으로 CPU, GPU, 메인 메모리 모듈, 확장 보드가 포함된다. 그 외 전원 장치, CD와 같은 광 저장장치, HDD, SSD, 입출력 장치 등이 모두 하드웨어에 속한다. CPU(Central Processing Unit)는 프로세서(processor)라고도 불리며 컴퓨터에서 발생하는 실행과 처리..

format_list_bulleted 기타 주제
· 2022. 8. 31.

Asynchronous Non-blocking 작업

Sync / Async 두 항목을 나누는 기준은 요청한 작업이 진행되는 순서이다. Synchronous - 동기: 요청된 작업이 순차적으로 진행된다. Asynchronous - 비동기: 요청된 작업 순서가 보장되지 않는다. 예를 들어, 1, 2, 3번 작업을 순서대로 요청했다고 하자. 동기인 경우는 순서대로 1번, 2번, 3번 작업을 수행하고 결과를 반환한다. 반면 비동기 작업은 1번, 3번, 2번과 같이 다른 순서로 결과를 반환할 수 있다. 예: 요청 1 → 2 → 3 결과 동기 1, 2, 3 비동기 1, 3, 2 (다른 경우도 가능) Blocking / Non-Blocking 두 항목을 나누는 기준은 함수의 제어권에 있다. Blocking: 함수가 호출되어 제어권을 받은 후 다시 넘겨주지 않는다. N..

format_list_bulleted 기타 주제
· 2022. 7. 20.