본문 바로가기

번역2

[번역] StackLLaMA: RLHF로 LLaMA를 학습시키기 위한 실습 가이드 이 글의 원문은 StackLLaMA: A hands-on guide to train LLaMA with RLHF입니다 ChatGPT, GPT-4, Claude와 같은 모델들은 인간 피드백에 의한 강화 학습(RLHF)이라고 하는 방법을 통해 우리가 원하고 사용하려는 방식에 잘 맞게 파인튜닝된 강력한 언어모델입니다 이 블로그 포스트에서는, 우리는 아래 기술을 조합해 RLHF와 Stack Exchange의 질문/답 데이터를 가지고 LLaMA모델 학습을 진행한 내용을 설명합니다. 슈퍼바이즈드 파인튜닝 Supervised Fine-tuning (SFT) 보상-선호 모델링 Reward / preference modeling (RM) 인간 피드백에 의한 강화 학습 Reinforcement Learning from H.. 2023. 4. 16.
[번역] 연봉 경주에서, 엔지니어는 질주하지만 영문학도는 기다린다 원문은 The Newyork times의 기고문 'In the Salary Race, Engineers Sprint but English Majors Endure'입니다. 일부 의역이 포함되어 있으며, 잘못된 번역이 있을 수 있습니다. 잘못된 번역에 대해서는 의견 주시면 수정하겠습니다. 안정적인 부를 추구하려는 학생들에게 있어 가장 '좋은' 전공선택이라는 것은 생각보다 명확하지 않습니다. 컴퓨터 공학과 같은 전공이 교양전공보다 고용 전망이 좋고 수입이 높다는 것이 일반적인 통념입니다. 첫 직업에 대해서라면 이런 통념이 맞지만, 길게 보면 이야기가 좀 더 복잡해집니다. STEM(과학, 기술, 공학, 수학) 전공의 장점은 첫 직장 이후에는 사라지게 되고, 나이 40세 이후에는 사회과학이나 역사를 전공한 사람.. 2019. 11. 4.