본문 바로가기

spatialvlm1

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities Link: https://arxiv.org/pdf/2401.12168.pdf프로젝트 링크: https://spatial-vlm.github.io/0. Abstract공간적인 관계에 대한 이해와 추론을 하는 것은 시각적인 질의응답 (Visual Question Answering, VQA) 과 로봇 문제에 있어 필수적인 능력최근 비전 언어 모델 (VLM)들은 특정 VQA 문제에서 좋은 성능을 보이지만 여전히 3차원 공간적인 추론에서는 부족한 성능을 보임 → ex. 물리적인 물체의 거리나 사이즈 차이에 대한 정량적인 관계 인지 문제본 논문의 가정: VLM의 제한된 공간적인 추론 능력은 학습 데이터에 3차원 공간적인 지식이 부족하기 때문이며 인터넷 규모의 (Internet-scale) 공간적인 추론 데이터를 기.. 2024. 9. 1.

이전 1 다음

티스토리툴바