낙서장

Huggingface로 LLM 실행하기

결과 영상SveltKit + FastAPI를 이용해 LLM을 모바일에서 사용한 예시다. GithubHuggingface TokenHuggingface🤗에서 LLM을 다운로드하기 위해 Token을 발급받아야 한다. 한 번 발급받은 토큰은 다시 확인이 어려우니 잘 기억해 두자.Settings > Access Tokens > + Create new token모델 실행모델을 Local에서 사용하기는 어려우니 Colab에서 시도하는 걸 추천한다. 필자는 RTX4060(8GB)를 이용해 로컬에서 겨우 돌렸다.!pip install transformers torch huggingface_hub bitsandbytes먼저 필요한 패키지를 설치해 준다.from huggingface_hub import loginlogi..

format_list_bulleted 머신러닝 & 딥러닝
· 2025. 3. 18.

OS: Process 상태 관리

OSOS(Operating system)은 운영체제로 소프트웨어와 하드웨어 리소스를 관리하는 시스템 소프트웨어다.구성OS는 크게 Bootstrap loader, Kernel, Utilites로 구성되어 있다.Bootstrap loader: OS를 실행하는 역할로, 필요한 정보를 메모리로 올리는 역할을 한다. ROM에 firmware 형태로 저장되어 있어 가장 먼저 실행된다.Kernel: OS의 핵심적인 부분으로 주로 리소스 관리를 담당한다. 부팅을 통해 메모리에 상주하게 된다.Utilities: 메모리에 올라오지 않는 기능으로, 대표적으로 UI 함수가 있다.기능프로세스 관리: 프로세스 주기(생성~종료)를 모두 관리하며, 이 과정에서 kernel 내에 있는 PCB(Process Control Block) ..

format_list_bulleted 기타 주제
· 2025. 3. 14.

K-Fold Cross Validation: overfitting 해결하기

문제 상황모델의 Training loss는 잘 수렴하지만 Validation loss가 크게 요동친다. 눈 감고 무시하기에는 너무 큰 문제다. 그래프를 통해 모델이 Overfit 되었다고 예측할 수 있다. Overfit 되었을 때 여러 방법을 시도해 볼 수 있다.학습 파라미터 조정 (Learning rate, Dropout rate, weight decay 등)데이터 증강 (또는 추가 수집)데이터를 늘리는 것이 가장 효과적이지만 현실적으로 쉽지 않다. 이때 시도해 볼 수 있는 방법이 K-Fold Cross Validation이다. (이하 교차 검증)Cross Validation교차 검증은 데이터를 K개로 쪼갠 뒤, 번갈아가며 Training set과 Validation set으로 사용한다.Subset으로..

format_list_bulleted 머신러닝 & 딥러닝
· 2025. 3. 2.

autocast: Mixed Precision

Mixed PrecisionPytorch는 기본적으로 모델 가중치를 32-bit float를 사용한다. 모델에 입력하기 전 .float()를 사용하는 것도 이 때문이다. 그런데 Mixed Precision은 필요에 따라 16-bit float를 섞어 사용한다. 이러한 방식은 여러 장점이 있다.32-bit가 아닌 16-bit를 사용해 GPU 메모리 사용량을 줄인다.학습 속도가 빨라진다.학습 성능이 비슷하거나 약간 향상된다. (NVIDIA)물론 16-bit는 32-bit보다 표현할 수 있는 범위가 좁아 정밀도가 떨어진다. 따라서 값이 underflow/overflow 되지 않도록 scaling 해야 한다. pytorch는 위 과정을 아주 쉽게 적용할 수 있다.autocastfrom torch import a..

format_list_bulleted 머신러닝 & 딥러닝
· 2025. 3. 1.

Pytorch 가이드 (자주 보는 에러)

Pytorch를 사용하면 항상 비슷한 에러를 다루게 된다. 본 글은 pytorch를 사용하며 헷갈렸던 내용을 모아 봤다.데이터 & 레이블 타입보통 학습할 때 데이터(이미지, 텍스트 등)와 이에 대응하는 레이블(클래스)을 사용한다.데이터 → FloatTensor레이블 → LongTensordataset = dataset.float()label = label.long()레이어는 주로 FloatTensor 타입 가중치를 가진다. 따라서 연산을 위해 같은 타입으로 통일해야 한다. 예를 들어, 데이터가 정수형일 경우 오류가 발생한다.레이블은 loss를 계산할 때 사용한다. 이때 loss 함수가 LongTensor를 사용하기 때문에 long으로 바꾸지 않으면 오류가 발생한다.CUDA & CPUtorch에서는 같은..

format_list_bulleted 머신러닝 & 딥러닝
· 2025. 2. 25.

Pytorch Warmup + Scheduler

딥러닝 모델 학습에서 학습률은 아주 중요하다. 하지만 학습 단계에 따라 최적의 학습률은 계속해서 달라진다. 따라서 scheduler를 사용해 자동을 학습률을 조정하기도 한다. 논문을 읽다 보면 아래와 같은 방법을 쓰기도 한다.N번째 iteration까지 Linear Warm-upLoss가 수렴하지 않을 때, 학습률을 10으로 나눔Pytorch는 위 기능을 기본으로 제공하지 않기 때문에 직접 구현해 사용해야 한다.참고로, warmup은 학습 초기에 학습률을 서서히 증가시키는 방법이다. 초기에 가중치가 급격하게 변하는 현상을 방지한다.class WarmupScheduler: """Warmup learning rate and dynamically adjusts learning rate based on t..

format_list_bulleted 머신러닝 & 딥러닝
· 2025. 2. 21.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Huggingface로 LLM 실행하기

OS: Process 상태 관리

K-Fold Cross Validation: overfitting 해결하기

autocast: Mixed Precision

Pytorch 가이드 (자주 보는 에러)

Pytorch Warmup + Scheduler

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역