TinyZero 따라하기 (1)

https://github.com/Jiayi-Pan/TinyZero

 TinyZero는 딥러닝 모델인 DeepSeek R1-Zero를 카운트다운 및 곱셈 작업에서 재현한 프로젝트로, veRL을 기반으로 구축되었습니다. 이 프로젝트는 30달러 미만의 비용으로 30억 개의 매개변수를 가진 언어 모델이 강화 학습을 통해 자체적으로 자기 검증 및 검색 능력을 개발하는 과정을 보여줍니다. 

설치 및 훈련에 대한 자세한 지침은 GitHub 저장소의 README 파일에서 확인할 수 있습니다. 

또한, 전체 실험 로그는 Weights & Biases 플랫폼에서 확인할 수 있습니다. 


만약 내가 이걸 따라하고 싶다면?

TinyZero를 직접 따라하고 싶다면 다음과 같은 단계로 진행하면 됩니다. 이 프로젝트는 PyTorch 기반의 딥러닝 및 강화 학습 지식이 약간 필요합니다.

1. 환경 준비
필수 요구사항:

  • Python 3.10 이상

  • PyTorch (CUDA 지원 추천)

  • transformers, accelerate, wandb 등 필수 라이브러리

git clone https://github.com/Jiayi-Pan/TinyZero.git

cd TinyZero

pip install -r requirements.txt


2. 프로젝트 구성 이해

TinyZero는 크게 3단계로 구성됩니다:

(1) 사전 훈련 (Pretraining)

  • scripts/pretrain.sh 또는 train.py를 통해 실행

  • GPT-2 모델을 PPO 없이 먼저 기본 학습시킴

(2) 강화 학습 (RLHF with PPO)

  • scripts/train_ppo.sh

  • 이 단계에서 언어모델은 자체적으로 "질문-답변"의 품질을 평가하며 학습함

(3) 검증 및 결과 분석

  • Weights & Biases (wandb)로 학습 로그 및 성능 모니터링


3. 실행 예시

accelerate launch train.py \

  --config_file configs/pretrain_config.yaml

또는 PPO 학습:

accelerate launch train_ppo.py \

  --config_file configs/ppo_config.yaml


4. 실험 결과 보기

  • wandb 링크에서 실제 결과 확인 가능


5. 주의할 점

  • GPU 메모리: 최소 16GB 이상 권장 (A100, RTX 3090 등)

  • 로컬에서 돌리기에는 무거운 편이니, Google Colab Pro나 A100 클라우드 환경 추천

Comments

Popular posts from this blog

TinyZero 따라하기 (3)

TinyZero 따라하기 (2)