TinyZero 따라하기 (1)
https://github.com/Jiayi-Pan/TinyZero TinyZero는 딥러닝 모델인 DeepSeek R1-Zero를 카운트다운 및 곱셈 작업에서 재현한 프로젝트로, veRL을 기반으로 구축되었습니다. 이 프로젝트는 30달러 미만의 비용으로 30억 개의 매개변수를 가진 언어 모델이 강화 학습을 통해 자체적으로 자기 검증 및 검색 능력을 개발하는 과정을 보여줍니다. 설치 및 훈련에 대한 자세한 지침은 GitHub 저장소의 README 파일에서 확인할 수 있습니다. 또한, 전체 실험 로그는 Weights & Biases 플랫폼에서 확인할 수 있습니다. 만약 내가 이걸 따라하고 싶다면? TinyZero를 직접 따라하고 싶다면 다음과 같은 단계로 진행하면 됩니다. 이 프로젝트는 PyTorch 기반의 딥러닝 및 강화 학습 지식이 약간 필요합니다. 1. 환경 준비 필수 요구사항: Python 3.10 이상 PyTorch (CUDA 지원 추천) transformers , accelerate , wandb 등 필수 라이브러리 git clone https://github.com/Jiayi-Pan/TinyZero.git cd TinyZero pip install -r requirements.txt 2. 프로젝트 구성 이해 TinyZero는 크게 3단계로 구성됩니다: (1) 사전 훈련 (Pretraining) scripts/pretrain.sh 또는 train.py 를 통해 실행 GPT-2 모델을 PPO 없이 먼저 기본 학습시킴 (2) 강화 학습 (RLHF with PPO) scripts/train_ppo.sh 이 단계에서 언어모델은 자체적으로 "질문-답변"의 품질을 평가하며 학습함 (3) 검증 및 결과 분석 Weights & Biases ( wandb )로 학습 로그 및 성능 모니터링 3. 실행 예시 accelerate launch train.py \ --config_file conf...
Comments
Post a Comment