본문 바로가기

reward design1

EUREKA: Human-level Reward Design via Coding Large Language Models Paper: https://eureka-research.github.io/assets/eureka_paper.pdf프로젝트 페이지: https://eureka-research.github.io/깃허브: https://github.com/eureka-research/Eureka0. Abstract대형 언어 모델 (Large Language Model, LLM)은 순차적 의사 결정 문제를 위한 high-level semantic 플래너로서 좋은 성능을 보임그러나 펜돌리기 같은 복잡한 low-level의 제어 문제를 학습하는데 LMM을 활용하는 것은 아직 해결되지 않은 문제이런 근본적인 차이를 해결하기 위해 EUREKA 기법을 제안 → LLM을 통한 사람 수준의 보상 디자인 알고리즘EUREKA는 뛰어난 제로샷.. 2024. 11. 20.

이전 1 다음

티스토리툴바