text decision transformer1 Pretraining for Language-Conditioned Imitation with Transformers Paper: https://offline-rl-neurips.github.io/2021/pdf/40.pdf코드 및 데이터셋: https://github.com/Louiealbp/TDT0. Abstract본 논문은 언어 입력을 사용하여 세부적인 문제를 효율적으로 학습하는 강화학습 에이전트에 대한 연구를 수행이를 위해 멀티모달 벤치마크를 제안텍스트 조건부 (Text-Conditioned) Frostbite → 에이전트가 Atari Frostbite 환경에서 텍스트 명령으로 정의된 문제를 달성해야 함학습을 위해 5M 개의 텍스트로 라벨링 된 transition들을 제공해당 벤치마크를 통해 Text Decision Transformer (TDT)를 평가텍스트, 상태, 행동 토큰을 통해 직접적으로 동작하는 트랜스.. 2024. 11. 23. 이전 1 다음