value function1 Stop Regressing: Training Value Function via Classification for Scalable Deep RL Paper: https://arxiv.org/pdf/2403.03950v1.pdfC51 관련 내용을 알고 보면 더 좋을 듯 합니다!0. Abstract가치함수 (Value Function)은 심층 강화학습에서 중심적인 요소인공신경망으로 파라미터화 된 해당 함수는 bootstrapped 타겟값과 일치하도록 평균 제곱 오차 회귀 목적함수 (Mean squared error regression objective)를 사용하여 학습그러나 이렇게 회귀를 사용하는 가치 기반 강화학습은 큰 규모의 네트워크 (ex. Transformers)로의 확장이 어려움이런 어려움은 지도 학습에 비해 극명하게 드러남 → Cross-entropy 기반의 지도 학습 기법은 대형 네트워크로 확장될 수 있음이에 따라 본 논문에서는 가치 함.. 2024. 11. 22. 이전 1 다음