본문 바로가기

전체 글34

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities Link: https://arxiv.org/pdf/2401.12168.pdf프로젝트 링크: https://spatial-vlm.github.io/0. Abstract공간적인 관계에 대한 이해와 추론을 하는 것은 시각적인 질의응답 (Visual Question Answering, VQA) 과 로봇 문제에 있어 필수적인 능력최근 비전 언어 모델 (VLM)들은 특정 VQA 문제에서 좋은 성능을 보이지만 여전히 3차원 공간적인 추론에서는 부족한 성능을 보임 → ex. 물리적인 물체의 거리나 사이즈 차이에 대한 정량적인 관계 인지 문제본 논문의 가정: VLM의 제한된 공간적인 추론 능력은 학습 데이터에 3차원 공간적인 지식이 부족하기 때문이며 인터넷 규모의 (Internet-scale) 공간적인 추론 데이터를 기.. 2024. 9. 1.
[LLaVA 1.5] Improved Baselines with Visual Instruction Tuning Link: https://arxiv.org/pdf/2310.03744.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. Abstract대형 멀티모달 모델 (LMM, Large Multimodal Models)는 최근 시각적인 instruction 튜닝에서 큰 발전을 보임이런 측면에서 LLaVA의 완전 연결 비전-언어 크로스 모달 커넥터 (fully-connected vision-language cross modal connector)는 강력한 성능과 데이터 효율성을 보임LLaVA에 대해 간단한 변경만 수행하여 11개의 벤치마크에서 최신의 성능을 달성하는 베이스 라인 구축MLP projection과 CLIP-.. 2024. 9. 1.
[LLaVA] Visual Instruction Tuning Link: https://arxiv.org/pdf/2304.08485.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. AbstractInstruction tuning 대형 언어 모델 (Instruction tuning LLMs)은 새로운 문제에 대해 zero-shot을 수행하는 발전된 능력을 가졌지만 멀티 모달 영역에서는 이 아이디어가 별로 탐구되지 않음본 논문에서는 언어만을 사용하는 GPT-4를 통해서 멀티 모달 언어-이미지 instruction-following 데이터를 생성하는 첫번째 시도를 수행이렇게 생성된 데이터를 사용하여 instruction tuning을 수행한 모델 소개 → LLaVA: La.. 2024. 8. 31.
[SIGLIP] Sigmoid Loss for Language Image Pre-Training 논문 링크: https://arxiv.org/pdf/2303.15343깃허브: https://github.com/google-research/big_vision0. Abstract본 논문에서 제안하는 기법 - Sigmoid loss for Language-Image Pre-training(SigLIP)기존 소프트맥스 정규화 (Softmax Normalization)을 사용하는 일반적인 contrastive 학습과 다르게 sigmoid 손실함수는 이미지-텍스트 쌍에 대해서만 연산 → 정규화를 위해 글로벌한 관점의 pairwise 유사도를 요구하지 않음Sigmoid 손실함수는 다음의 두가지 사항을 달성효율적 연산을 통한 배치 사이즈의 증가작은 배치 사이즈에서 좋은 성능을 달성Locked-image Tunin.. 2024. 8. 31.