전체 글37 World Models with Hints of Large Language Models for Goal Achieving Paper: https://arxiv.org/pdf/2406.073810. Abstract강화학습은 장기적인 (long-horizon) 문제나 목표가 희소한 (sparse) 환경에서는 수동으로 보상 설정을 하는 것의 어려움 때문에 학습이 잘 안됨기존 기법들은 이를 해결하기 위해 내적 보상 (intrinsic reward)을 사용하지만 큰 상태와 행동 공간을 가지는 장기적인 의사 결정 문제에서는 의미있게 가이드하지 못함 → 목적성 있는 탐험을 수행하지 못함본 논문에서는 멀티모달 모델 기반 강화학습을 제안 → Dreaming with Large Language Models (DLLM)언어 모델로부터 제안된 힌트 하위 목표를 모델 롤아웃 (rollouts)에 통합하여 목표를 달성하고 어려운 문제를 해결할 수 .. 2024. 11. 24. Pretraining for Language-Conditioned Imitation with Transformers Paper: https://offline-rl-neurips.github.io/2021/pdf/40.pdf코드 및 데이터셋: https://github.com/Louiealbp/TDT0. Abstract본 논문은 언어 입력을 사용하여 세부적인 문제를 효율적으로 학습하는 강화학습 에이전트에 대한 연구를 수행이를 위해 멀티모달 벤치마크를 제안텍스트 조건부 (Text-Conditioned) Frostbite → 에이전트가 Atari Frostbite 환경에서 텍스트 명령으로 정의된 문제를 달성해야 함학습을 위해 5M 개의 텍스트로 라벨링 된 transition들을 제공해당 벤치마크를 통해 Text Decision Transformer (TDT)를 평가텍스트, 상태, 행동 토큰을 통해 직접적으로 동작하는 트랜스.. 2024. 11. 23. Stop Regressing: Training Value Function via Classification for Scalable Deep RL Paper: https://arxiv.org/pdf/2403.03950v1.pdfC51 관련 내용을 알고 보면 더 좋을 듯 합니다!0. Abstract가치함수 (Value Function)은 심층 강화학습에서 중심적인 요소인공신경망으로 파라미터화 된 해당 함수는 bootstrapped 타겟값과 일치하도록 평균 제곱 오차 회귀 목적함수 (Mean squared error regression objective)를 사용하여 학습그러나 이렇게 회귀를 사용하는 가치 기반 강화학습은 큰 규모의 네트워크 (ex. Transformers)로의 확장이 어려움이런 어려움은 지도 학습에 비해 극명하게 드러남 → Cross-entropy 기반의 지도 학습 기법은 대형 네트워크로 확장될 수 있음이에 따라 본 논문에서는 가치 함.. 2024. 11. 22. Guiding Pretraining in Reinforcement Learning with Large Language Models Paper: https://arxiv.org/pdf/2302.06692.pdf0. Abstract강화학습 알고리즘은 밀집되고 (dense) 잘 형성된 보상 함수가 없는 것이 일반적인 문제점이런 한계를 극복하기 위해 내적 동기부여 (intrinsically motivated) 탐험 기법이 사용됨 → 에이전트가 새로운 상태에 방문하는 경우 보상을 제공하지만 이런 방법은 매우 규모가 큰 환경에서 탐색된 새로운 상태가 실제 문제 해결과 무관한 경우가 많을 때에는 별 도움이 되지 못함본 논문에서는 탐험을 위한 사전 지식으로 텍스트 정보를 사용하는 기법을 제안 → ELLM (Exploring with LLMs)에이전트의 현재 상태를 묘사한 정보를 프롬프트로 한 언어 모델이 제안한 목표를 달성하는 경우 보상 제공대규.. 2024. 11. 21. EUREKA: Human-level Reward Design via Coding Large Language Models Paper: https://eureka-research.github.io/assets/eureka_paper.pdf프로젝트 페이지: https://eureka-research.github.io/깃허브: https://github.com/eureka-research/Eureka0. Abstract대형 언어 모델 (Large Language Model, LLM)은 순차적 의사 결정 문제를 위한 high-level semantic 플래너로서 좋은 성능을 보임그러나 펜돌리기 같은 복잡한 low-level의 제어 문제를 학습하는데 LMM을 활용하는 것은 아직 해결되지 않은 문제이런 근본적인 차이를 해결하기 위해 EUREKA 기법을 제안 → LLM을 통한 사람 수준의 보상 디자인 알고리즘EUREKA는 뛰어난 제로샷.. 2024. 11. 20. VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time 논문 링크: https://arxiv.org/pdf/2404.10667프로젝트 페이지: https://www.microsoft.com/en-us/research/project/vasa-1/0. Abstract단일 이미지와 발화에 대한 오디오 클립이 주어졌을 때 Visual Affective Skills (VAS)를 가지는 실제 같은 talking face를 생성하는 프레임워크 제안 → VASA첫 모델인 VASA-1은 단순히 입술만 오디오에 맞게 움직이는 것 뿐 아니라 다양한 얼굴의 뉘앙스, 자연스러운 머리의 움직임까지 적용하여 생동감있는 결과를 만들 수 있음본 논문의 혁신적인 점 → 확산 (Diffusion)을 기반으로 얼굴 잠재 공간 (latent space)에서 전체적인 얼굴이나 머리의 움직임을 생성.. 2024. 11. 19. 이전 1 2 3 4 5 ··· 7 다음