TinyZero 따라하기 (3)

Colab용 간이 실행 코드

Colab Pro에서 TinyZero를 실행할 수 있도록 만든 간이 실행 코드. 복잡한 스크립트 없이 사전 학습 (pretraining) 파트만 실행해보는 버전.

# [1] 기본 셋업

!git clone https://github.com/Jiayi-Pan/TinyZero.git

%cd TinyZero

!pip install -r requirements.txt

# [2] Pretraining 설정 파일 확인

!cat configs/pretrain_config.yaml

# [3] 사전 학습 실행

!accelerate launch train.py \

--config_file configs/pretrain_config.yaml

⚠️ accelerate config는 Colab에서는 자동 설정되므로 생략 가능함.
GPU는 Colab Pro+에서 A100 나오면 더 좋음.

주요 코드 흐름 분석

TinyZero는 PPO (Proximal Policy Optimization) 를 사용한 RLHF (Reinforcement Learning with Human Feedback) 기반 언어모델 훈련 구조를 단순화한 프로젝트야.

IrvineStockChobo