논문 리뷰39 [LLaVA 1.5] Improved Baselines with Visual Instruction Tuning Link: https://arxiv.org/pdf/2310.03744.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. Abstract대형 멀티모달 모델 (LMM, Large Multimodal Models)는 최근 시각적인 instruction 튜닝에서 큰 발전을 보임이런 측면에서 LLaVA의 완전 연결 비전-언어 크로스 모달 커넥터 (fully-connected vision-language cross modal connector)는 강력한 성능과 데이터 효율성을 보임LLaVA에 대해 간단한 변경만 수행하여 11개의 벤치마크에서 최신의 성능을 달성하는 베이스 라인 구축MLP projection과 CLIP-.. 2024. 9. 1. [LLaVA] Visual Instruction Tuning Link: https://arxiv.org/pdf/2304.08485.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. AbstractInstruction tuning 대형 언어 모델 (Instruction tuning LLMs)은 새로운 문제에 대해 zero-shot을 수행하는 발전된 능력을 가졌지만 멀티 모달 영역에서는 이 아이디어가 별로 탐구되지 않음본 논문에서는 언어만을 사용하는 GPT-4를 통해서 멀티 모달 언어-이미지 instruction-following 데이터를 생성하는 첫번째 시도를 수행이렇게 생성된 데이터를 사용하여 instruction tuning을 수행한 모델 소개 → LLaVA: La.. 2024. 8. 31. [SIGLIP] Sigmoid Loss for Language Image Pre-Training 논문 링크: https://arxiv.org/pdf/2303.15343깃허브: https://github.com/google-research/big_vision0. Abstract본 논문에서 제안하는 기법 - Sigmoid loss for Language-Image Pre-training(SigLIP)기존 소프트맥스 정규화 (Softmax Normalization)을 사용하는 일반적인 contrastive 학습과 다르게 sigmoid 손실함수는 이미지-텍스트 쌍에 대해서만 연산 → 정규화를 위해 글로벌한 관점의 pairwise 유사도를 요구하지 않음Sigmoid 손실함수는 다음의 두가지 사항을 달성효율적 연산을 통한 배치 사이즈의 증가작은 배치 사이즈에서 좋은 성능을 달성Locked-image Tunin.. 2024. 8. 31. 이전 1 ··· 4 5 6 7 다음