RLHF1 Deep Reinforcement Learning from Human Preference Paper: https://arxiv.org/pdf/1706.03741.pdf0. Abstract본 논문에서 제안하는 것 → 한쌍의 trajectory segment 사이에서 (비 전문가) 사람의 선호에 따라 학습의 목표를 정의이런 접근을 통해 보상함수에 대한 접근 없이 복잡한 강화학습 문제 (e.g. Atari, simulated robot locomotion)를 효과적으로 풀 수 있음환경과 상호작용하는 것에 비해 1%도 안되는 피드백만으로 에이전트 학습 가능사람의 감독에 따른 비용이 크게 감소하기 때문에 SOTA 강화학습 시스템에 실용적으로 적용이 가능기존의 사람 피드백을 통해 학습하던 기법들에 비해 더욱 복잡하고 새로운 행동을 1시간 안에 성공적으로 학습1. Introduction최근 강화학습은 보.. 2024. 11. 10. 이전 1 다음