TinyZero 따라하기 (5) - RLHF
RLHF 란?
"강화학습 + 사람의 피드백으로 AI를 훈련시키는 방법"
LLM에게 단순히 텍스트만 주는 게 아니라,
사람이 어떤 응답이 좋은지 알려줘서,
그 기준으로 스스로 답변을 고쳐나가도록 훈련시키는 방식.
📚 RLHF 훈련 흐름 요약
1단계. Supervised Fine-Tuning (SFT)
실제 인간 대화 데이터를 기반으로 LLM 미세 조정
예: Prompt → Human Answer 쌍 학습
2단계. Reward Model 훈련
사람이 여러 답변 중 어떤 게 더 좋은지 순위를 매김
이걸로 GPT 응답의 "품질 점수 예측기"를 학습시킴
3단계. PPO로 강화 학습
LLM이 답변 생성 → Reward Model이 평가 →
보상이 높은 방향으로 PPO로 정책 업데이트
🔁 RLHF 전체 흐름 그림
🧠 TinyZero에서의 RLHF 적용
TinyZero는 SFT → PPO with Reward Model 구조 중
SFT는 간단하게, PPO 중심으로 실험하는 구조.
train.py → 사전학습
train_ppo.py → PPO + Reward Model
Weights & Biases로 학습 모니터링
🧩 비교: 일반 GPT vs RLHF 모델
✨ 한마디 요약
RLHF = "사람이 좋아하는 방향으로 LLM을 스스로 튜닝시키는 기술"
→ ChatGPT가 똑똑하고 착한 이유!
Comments
Post a Comment