TinyZero 따라하기 (1)

April 05, 2025

TinyZero는 딥러닝 모델인 DeepSeek R1-Zero를 카운트다운 및 곱셈 작업에서 재현한 프로젝트로, veRL을 기반으로 구축되었습니다. 이 프로젝트는 30달러 미만의 비용으로 30억 개의 매개변수를 가진 언어 모델이 강화 학습을 통해 자체적으로 자기 검증 및 검색 능력을 개발하는 과정을 보여줍니다.

설치 및 훈련에 대한 자세한 지침은 GitHub 저장소의 README 파일에서 확인할 수 있습니다.

또한, 전체 실험 로그는 Weights & Biases 플랫폼에서 확인할 수 있습니다.

만약 내가 이걸 따라하고 싶다면?

TinyZero를 직접 따라하고 싶다면 다음과 같은 단계로 진행하면 됩니다. 이 프로젝트는 PyTorch 기반의 딥러닝 및 강화 학습 지식이 약간 필요합니다.

1. 환경 준비
필수 요구사항:

Python 3.10 이상
PyTorch (CUDA 지원 추천)
transformers, accelerate, wandb 등 필수 라이브러리

git clone https://github.com/Jiayi-Pan/TinyZero.git

cd TinyZero

pip install -r requirements.txt

2. 프로젝트 구성 이해

TinyZero는 크게 3단계로 구성됩니다:

(1) 사전 훈련 (Pretraining)

scripts/pretrain.sh 또는 train.py를 통해 실행
GPT-2 모델을 PPO 없이 먼저 기본 학습시킴

(2) 강화 학습 (RLHF with PPO)

scripts/train_ppo.sh
이 단계에서 언어모델은 자체적으로 "질문-답변"의 품질을 평가하며 학습함

(3) 검증 및 결과 분석

Weights & Biases (wandb)로 학습 로그 및 성능 모니터링

3. 실행 예시

accelerate launch train.py \

--config_file configs/pretrain_config.yaml

또는 PPO 학습:

accelerate launch train_ppo.py \

--config_file configs/ppo_config.yaml

4. 실험 결과 보기

wandb 링크에서 실제 결과 확인 가능

5. 주의할 점

GPU 메모리: 최소 16GB 이상 권장 (A100, RTX 3090 등)
로컬에서 돌리기에는 무거운 편이니, Google Colab Pro나 A100 클라우드 환경 추천

Search This Blog

IrvineStockChobo