Llama1 [번역] StackLLaMA: RLHF로 LLaMA를 학습시키기 위한 실습 가이드 이 글의 원문은 StackLLaMA: A hands-on guide to train LLaMA with RLHF입니다 ChatGPT, GPT-4, Claude와 같은 모델들은 인간 피드백에 의한 강화 학습(RLHF)이라고 하는 방법을 통해 우리가 원하고 사용하려는 방식에 잘 맞게 파인튜닝된 강력한 언어모델입니다 이 블로그 포스트에서는, 우리는 아래 기술을 조합해 RLHF와 Stack Exchange의 질문/답 데이터를 가지고 LLaMA모델 학습을 진행한 내용을 설명합니다. 슈퍼바이즈드 파인튜닝 Supervised Fine-tuning (SFT) 보상-선호 모델링 Reward / preference modeling (RM) 인간 피드백에 의한 강화 학습 Reinforcement Learning from H.. 2023. 4. 16. 이전 1 다음