TinyZero 따라하기 (6) - Reward Model
Reward Model 이란? “AI가 만든 답변이 얼마나 좋은지 자동으로 점수를 매기는 모델” RLHF에서 AI가 스스로 학습하려면 “이 답변은 괜찮은가?”라는 기준점 이 필요. 그 역할을 하는 게 바로 Reward Model . 📦 Reward Model의 학습 과정 🔁 입력 Prompt (질문) 여러 개의 답변 ( response_1 , response_2 , ...) 📊 인간 피드백 사람이 response_2 > response_1 > response_3 이런 식으로 랭킹 을 매김 📈 목표 모델이 각 답변에 대해 “얼마나 좋은지”를 점수화 하도록 학습 → 이 점수가 바로 PPO의 reward 값 으로 들어가! 🧠 Reward Model이 하는 일 LLM이 답변 A , 답변 B 생성 Reward Model이 A: 0.6점 , B: 0.1점 평가 A를 더 선호하는 것으로 판단 → 그 방향으로 PPO 업데이트 🧪 예시 Prompt: “What is the capital of France?” Response A: “Paris is the capital of France.” Response B: “I think it’s London but I’m not sure.” → Reward Model Output: A: 0.9 B: 0.2 → PPO는 A처럼 답변하도록 학습 ✅ TinyZero에서의 Reward Model TinyZero에는 reward_model.py 파일이 있고, 그 안에서 GPT 모델을 기반으로 Score Predictor 를 학습하거나 로드해 사용함. class RewardModel(nn.Module): def forward(self, input_ids): # GPT 계열 모델을 통해 hidden state 추출 ...