llava2 [LLaVA 1.5] Improved Baselines with Visual Instruction Tuning Link: https://arxiv.org/pdf/2310.03744.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. Abstract대형 멀티모달 모델 (LMM, Large Multimodal Models)는 최근 시각적인 instruction 튜닝에서 큰 발전을 보임이런 측면에서 LLaVA의 완전 연결 비전-언어 크로스 모달 커넥터 (fully-connected vision-language cross modal connector)는 강력한 성능과 데이터 효율성을 보임LLaVA에 대해 간단한 변경만 수행하여 11개의 벤치마크에서 최신의 성능을 달성하는 베이스 라인 구축MLP projection과 CLIP-.. 2024. 9. 1. [LLaVA] Visual Instruction Tuning Link: https://arxiv.org/pdf/2304.08485.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. AbstractInstruction tuning 대형 언어 모델 (Instruction tuning LLMs)은 새로운 문제에 대해 zero-shot을 수행하는 발전된 능력을 가졌지만 멀티 모달 영역에서는 이 아이디어가 별로 탐구되지 않음본 논문에서는 언어만을 사용하는 GPT-4를 통해서 멀티 모달 언어-이미지 instruction-following 데이터를 생성하는 첫번째 시도를 수행이렇게 생성된 데이터를 사용하여 instruction tuning을 수행한 모델 소개 → LLaVA: La.. 2024. 8. 31. 이전 1 다음