분류 전체보기38 VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time 논문 링크: https://arxiv.org/pdf/2404.10667프로젝트 페이지: https://www.microsoft.com/en-us/research/project/vasa-1/0. Abstract단일 이미지와 발화에 대한 오디오 클립이 주어졌을 때 Visual Affective Skills (VAS)를 가지는 실제 같은 talking face를 생성하는 프레임워크 제안 → VASA첫 모델인 VASA-1은 단순히 입술만 오디오에 맞게 움직이는 것 뿐 아니라 다양한 얼굴의 뉘앙스, 자연스러운 머리의 움직임까지 적용하여 생동감있는 결과를 만들 수 있음본 논문의 혁신적인 점 → 확산 (Diffusion)을 기반으로 얼굴 잠재 공간 (latent space)에서 전체적인 얼굴이나 머리의 움직임을 생성.. 2024. 11. 19. Training Diffusion Models with Reinforcement Learning Paper: https://arxiv.org/pdf/2305.13301.pdf프로젝트 페이지: https://rl-diffusion.github.io/0. AbstractDiffusion 모델은 log-likelihood objective로 근사되어 학습한 유연한 생성 모델하지만 대부분의 diffusion 모델 사용시 likelihood가 고려되지 않고 인간이 인지하는 이미지의 품질이나 drug effectiveness (?) 같은 다운스트림 목표와 관련됨본 논문은 강화학습을 통해 diffusion 모델을 직접적으로 최적화하는 방법에 대해 설명노이즈 제거 과정을 다수의 단계에 대한 의사 결정 문제로 취급 → policy gradient 알고리즘을 사용할 수 있도록 함본 논문에서 제안하는 기법 -> Den.. 2024. 11. 16. Collaborating with Humans without Human Data Paper: https://arxiv.org/pdf/2110.08176.pdf0. Abstract사람과 협력하는 것은 사람의 개별적인 강점, 약점, 선호에 빠르게 적응할 수 있는 능력을 요구불행하게도 Self-Play (SP)나 Population Play (PP)와 같은 대부분의 표준 멀티 에이전트 강화학습 기법들은 학습한 파트너에 대해 과적합 되기 때문에 사람에게 일반화하기 어려움이에 대한 대안으로 사람의 데이터를 수집한 뒤 Behavioral Cloning을 통해 사람 모델을 학습하고 해당 모델을 통해 “human aware” 에이전트를 학습할 수 있음 → Behavioral Cloning Play (BCP)이런 접근은 새로운 사람 공동 플레이어에 대한 일반화를 향상시키지만 번거로우면서도 많은 비용.. 2024. 11. 15. Deep Reinforcement Learning from Human Preference Paper: https://arxiv.org/pdf/1706.03741.pdf0. Abstract본 논문에서 제안하는 것 → 한쌍의 trajectory segment 사이에서 (비 전문가) 사람의 선호에 따라 학습의 목표를 정의이런 접근을 통해 보상함수에 대한 접근 없이 복잡한 강화학습 문제 (e.g. Atari, simulated robot locomotion)를 효과적으로 풀 수 있음환경과 상호작용하는 것에 비해 1%도 안되는 피드백만으로 에이전트 학습 가능사람의 감독에 따른 비용이 크게 감소하기 때문에 SOTA 강화학습 시스템에 실용적으로 적용이 가능기존의 사람 피드백을 통해 학습하던 기법들에 비해 더욱 복잡하고 새로운 행동을 1시간 안에 성공적으로 학습1. Introduction최근 강화학습은 보.. 2024. 11. 10. CLUTR: Curriculum Learning via Unsupervised Task Representation Learning - Paper: https://arxiv.org/pdf/2210.10243.pdf 0. Abstract강화학습 알고리즘은 일반적으로 샘플 비효율적 (sample inefficiency)이며 일반화가 어렵다고 알려짐최근 Unsupervised Environment Design (UED)가 zero-shot 일반화를 위한 새로운 패러다임으로 떠오름 → task 분포의 학습과 샘플링 된 task 들에서의 에이전트 정책 학습을 동시에 수행이는 고정되지 않은 (non-stationary) 과정으로 task 분포가 에이전트 정책과 함께 진화시킴과거의 연구들을 통해 일반화에 대한 개선을 이뤘지만 아직 task 공간에 대한 샘플 효율성을 개선하지는 못했음이에 따라 본 논문은 CLUTR 기법을 제안 → 새로운 커리큘럼 .. 2024. 11. 9. SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model 논문 링크: https://arxiv.org/pdf/2212.050340. Abstract멀티모달 이미지 인페인팅 (Multi-modal Image Inpainting) → 인페인팅 되는 콘텐츠에 대해 더욱 유연하고 유용한 제어를 제공e.g. 물체에 대한 더욱 풍성한 특징을 설명하기 위해 텍스트 프롬프트를 사용할 수 있으며 마스크 (Mask)는 인페인팅 되는 물체의 모양을 제한하는데 사용본 논문에서는 새로운 확산 (Diffusion) 기반 모델인 SmartBrush를 제안 → 텍스트와 모양 (shape)에 대한 가이드를 사용하여 빈 영역을 물체로 채워줌DALL-E 2나 Stable Diffusion과 같은 이전의 기법들은 텍스트 기반 인페인팅은 가능하지만 모양에 대한 가이드는 제공하지 않아서 생성된 물체.. 2024. 11. 7. 이전 1 2 3 4 5 6 7 다음