TinyZero 따라하기 (5) - RLHF

 RLHF 란?

"강화학습 + 사람의 피드백으로 AI를 훈련시키는 방법"

LLM에게 단순히 텍스트만 주는 게 아니라,
사람이 어떤 응답이 좋은지 알려줘서,
그 기준으로 스스로 답변을 고쳐나가도록 훈련시키는 방식.


📚 RLHF 훈련 흐름 요약

1단계. Supervised Fine-Tuning (SFT)

  • 실제 인간 대화 데이터를 기반으로 LLM 미세 조정

  • 예: Prompt → Human Answer 쌍 학습

2단계. Reward Model 훈련

  • 사람이 여러 답변 중 어떤 게 더 좋은지 순위를 매김

  • 이걸로 GPT 응답의 "품질 점수 예측기"를 학습시킴

3단계. PPO로 강화 학습

  • LLM이 답변 생성 → Reward Model이 평가 →

  • 보상이 높은 방향으로 PPO로 정책 업데이트


🔁 RLHF 전체 흐름 그림


[Prompt]

   ↓

[LLM generates multiple responses]

   ↓

[Human ranks best response]

   ↓

[Reward Model 학습]

   ↓

[LLM + PPO → Reward 높은 방향으로 업데이트]



🧠 TinyZero에서의 RLHF 적용

TinyZero는 SFT → PPO with Reward Model 구조 중
SFT는 간단하게, PPO 중심으로 실험하는 구조.

  1. train.py → 사전학습

  2. train_ppo.py → PPO + Reward Model

  3. Weights & Biases로 학습 모니터링


🧩 비교: 일반 GPT vs RLHF 모델

항목

일반 GPT

RLHF GPT (ChatGPT 등)

학습 목표

다음 단어 예측

사람에게 유용하고 안전한 답변

훈련 방법

대량의 웹 텍스트

RLHF: 사람 피드백 기반 강화학습

답변 스타일

가끔 엉뚱하고 공격적

정중하고 적절하게 조정됨


✨ 한마디 요약

RLHF = "사람이 좋아하는 방향으로 LLM을 스스로 튜닝시키는 기술"
→ ChatGPT가 똑똑하고 착한 이유!


Comments

Popular posts from this blog

TinyZero 따라하기 (1)

TinyZero 따라하기 (3)

TinyZero 따라하기 (2)