Search This Blog

IrvineStockChobo

Today Stock Closing (10/17/2023)

Get link
Facebook
X
Pinterest
Email
Other Apps

October 17, 2023

Today Market Closing

Get link
Facebook
X
Pinterest
Email
Other Apps

Comments

TinyZero 따라하기 (1)

April 05, 2025

https://github.com/Jiayi-Pan/TinyZero TinyZero는 딥러닝 모델인 DeepSeek R1-Zero를 카운트다운 및 곱셈 작업에서 재현한 프로젝트로, veRL을 기반으로 구축되었습니다. 이 프로젝트는 30달러 미만의 비용으로 30억 개의 매개변수를 가진 언어 모델이 강화 학습을 통해 자체적으로 자기 검증 및 검색 능력을 개발하는 과정을 보여줍니다. 설치 및 훈련에 대한 자세한 지침은 GitHub 저장소의 README 파일에서 확인할 수 있습니다. 또한, 전체 실험 로그는 Weights & Biases 플랫폼에서 확인할 수 있습니다. 만약 내가 이걸 따라하고 싶다면? TinyZero를 직접 따라하고 싶다면 다음과 같은 단계로 진행하면 됩니다. 이 프로젝트는 PyTorch 기반의 딥러닝 및 강화 학습 지식이 약간 필요합니다. 1. 환경 준비 필수 요구사항: Python 3.10 이상 PyTorch (CUDA 지원 추천) transformers , accelerate , wandb 등 필수 라이브러리 git clone https://github.com/Jiayi-Pan/TinyZero.git cd TinyZero pip install -r requirements.txt 2. 프로젝트 구성 이해 TinyZero는 크게 3단계로 구성됩니다: (1) 사전 훈련 (Pretraining) scripts/pretrain.sh 또는 train.py 를 통해 실행 GPT-2 모델을 PPO 없이 먼저 기본 학습시킴 (2) 강화 학습 (RLHF with PPO) scripts/train_ppo.sh 이 단계에서 언어모델은 자체적으로 "질문-답변"의 품질을 평가하며 학습함 (3) 검증 및 결과 분석 Weights & Biases ( wandb )로 학습 로그 및 성능 모니터링 3. 실행 예시 accelerate launch train.py \ --config_file conf...

TinyZero 따라하기 (3)

April 05, 2025

Colab용 간이 실행 코드 Colab Pro에서 TinyZero를 실행할 수 있도록 만든 간이 실행 코드. 복잡한 스크립트 없이 사전 학습 (pretraining) 파트만 실행해보는 버전. # [1] 기본 셋업 !git clone https://github.com/Jiayi-Pan/TinyZero.git %cd TinyZero !pip install -r requirements.txt # [2] Pretraining 설정 파일 확인 !cat configs/pretrain_config.yaml # [3] 사전 학습 실행 !accelerate launch train.py \ --config_file configs/pretrain_config.yaml ⚠️ accelerate config 는 Colab에서는 자동 설정되므로 생략 가능함. GPU는 Colab Pro+에서 A100 나오면 더 좋음. 주요 코드 흐름 분석 TinyZero는 PPO (Proximal Policy Optimization) 를 사용한 RLHF (Reinforcement Learning with Human Feedback) 기반 언어모델 훈련 구조를 단순화한 프로젝트야. 핵심 구성요소 파일 설명 train.py 사전 학습 수행 (Pretraining, PPO 없이) train_ppo.py PPO 알고리즘 기반 강화 학습 수행 model.py HuggingFace 기반 GPT 모델 정의 dataset.py Pretraining용 학습 데이터 생성 및 처리 reward_model.py 생성된 응답 평가용 보상 모델 ppo_trainer.py PPO 알고리즘 핵심 로직 (update steps 등) 흐름 요약 [1] train.py load_dataset() → create_dataloader() → Trainer.train() PPO 없이 기본 언어모델 사전학습 수행 [2] train_ppo.py 사용자 질문에 대한 응답을 생성 → reward_model 로...

TinyZero 따라하기 (2)

April 05, 2025

Google Colab Pro나 A100 클라우드 환경 추천 1. Google Colab (Pro / Pro+) 기본 Colab 무료, 하지만 T4 / P100 GPU 제공 (성능이 낮음) 세션 제한이 자주 걸림 (최대 12시간) 작은 모델만 실험 가능 Colab Pro / Pro+ 약 월 12,000~26,000원 T4 / A100 / V100 랜덤 배정 메모리: 최대 32GB RAM / 16GB VRAM (A100은 40GB) 간편하고 바로 실행 가능 추천: 실험용으로 시작할 땐 Colab Pro 괜찮음 2. Kaggle 노트북 무료 GPU 제공 (최대 30시간/주) T4 GPU 제공 사양은 낮지만 기본 실험에는 충분 단점: 리소스가 적고 시간이 제한적임 3. Lambda Labs Cloud A100 인스턴스 시간당 약 $1.10 강력한 GPU, 커스텀 환경 구축 가능 SSH 접속 가능 (실제 서버 느낌) 단점: 클라우드 서버 세팅 약간 번거로움 4. Paperspace Gradient Free / Core / Pro 플랜 A100 인스턴스 사용 가능 (유료) Jupyter 환경 바로 사용 가능 장점: 클라우드 Colab 같은 UI 단점: 유료 플랜 가격이 조금 비쌈 5. 개인 서버 or 데스크탑 RTX 3090 이상 보유 시 직접 실행 가능 VRAM 24GB 이상이면 웬만한 실험 가능 장점: 자유도 높음 단점: 직접 환경 구성해야 함 추천 요약 목적 추천 환경 입문, 간단 테스트 Colab (무료) 실험 위주 진행 Colab Pro / Pro+ 대규모 실험 Lambda, Paperspace 최고 성능 A100 (클라우드)

Labels

Android Audio
Bank Loan/Deposit Ratio
K-pop is trending
National Financial Conditions Index
PPO
RewardModel
RLHF
Technical Analysis
TinyZero
Today Market Closing

Search This Blog

IrvineStockChobo

Today Stock Closing (10/17/2023)

Comments

Post a Comment

Popular posts from this blog

TinyZero 따라하기 (1)

TinyZero 따라하기 (3)

TinyZero 따라하기 (2)