TinyZero 따라하기 (1)
https://github.com/Jiayi-Pan/TinyZero
TinyZero는 딥러닝 모델인 DeepSeek R1-Zero를 카운트다운 및 곱셈 작업에서 재현한 프로젝트로, veRL을 기반으로 구축되었습니다. 이 프로젝트는 30달러 미만의 비용으로 30억 개의 매개변수를 가진 언어 모델이 강화 학습을 통해 자체적으로 자기 검증 및 검색 능력을 개발하는 과정을 보여줍니다.
설치 및 훈련에 대한 자세한 지침은 GitHub 저장소의 README 파일에서 확인할 수 있습니다.
또한, 전체 실험 로그는 Weights & Biases 플랫폼에서 확인할 수 있습니다.
만약 내가 이걸 따라하고 싶다면?
TinyZero를 직접 따라하고 싶다면 다음과 같은 단계로 진행하면 됩니다. 이 프로젝트는 PyTorch 기반의 딥러닝 및 강화 학습 지식이 약간 필요합니다.
1. 환경 준비
필수 요구사항:
Python 3.10 이상
PyTorch (CUDA 지원 추천)
transformers, accelerate, wandb 등 필수 라이브러리
2. 프로젝트 구성 이해
TinyZero는 크게 3단계로 구성됩니다:
(1) 사전 훈련 (Pretraining)
scripts/pretrain.sh 또는 train.py를 통해 실행
GPT-2 모델을 PPO 없이 먼저 기본 학습시킴
(2) 강화 학습 (RLHF with PPO)
scripts/train_ppo.sh
이 단계에서 언어모델은 자체적으로 "질문-답변"의 품질을 평가하며 학습함
(3) 검증 및 결과 분석
Weights & Biases (wandb)로 학습 로그 및 성능 모니터링
3. 실행 예시
또는 PPO 학습:
4. 실험 결과 보기
wandb 링크에서 실제 결과 확인 가능
5. 주의할 점
GPU 메모리: 최소 16GB 이상 권장 (A100, RTX 3090 등)
로컬에서 돌리기에는 무거운 편이니, Google Colab Pro나 A100 클라우드 환경 추천
Comments
Post a Comment