논문 리뷰28 Sufficient Context: A New Lens on Retrieval Augmented Generation Systems Link: https://arxiv.org/pdf/2411.06037블로그: https://research.google/blog/deeper-insights-into-retrieval-augmented-generation-the-role-of-sufficient-context/깃허브: https://github.com/hljoren/sufficientcontext 0. AbstractLLM을 컨텍스트 (context)로 강화하는 것은 다양한 분야에서 성능 향상을 가져옴 → RAG (Retrieval Augmented Generation)RAG 시스템에서 LLM이 응답하는 과정은 다음의 그림 참고 RAG에 대해 많은 연구가 이루어지고 있지만 RAG가 적절한 응답을 하지 못하는 원인이 다음 중 어떤 것인지.. 2025. 6. 6. Scalable Diffusion Models with Transformers 논문 링크: https://arxiv.org/pdf/2212.09748프로젝트 페이지: https://www.wpeebles.com/DiT깃허브: https://github.com/facebookresearch/DiT 0. Abstract본 논문에서는 트랜스포머 (Transformer) 구조를 백본 (Backbone)으로 하는 새로운 확산 모델 (Diffusion Model) 제안이미지에 대한 잠재 확산 모델 (Latent Diffusion Model, LDM)을 학습 → 일반적으로 사용되는 U-Net 모델 대신 잠재 패치에서 작동하는 트랜스포머 사용또한 본 논문에서 제안하는 DiT (Diffusion Transformers)의 확장성에 대해 분석입력 토큰 수의 증가에 따라 트랜스포머의 깊이/너비가 증가.. 2025. 4. 19. SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers 논문 링크: https://arxiv.org/pdf/2410.10629프로젝트 페이지: https://nvlabs.github.io/Sana/깃허브: https://github.com/NVlabs/Sana 0. AbstractSana: 효율적으로 이미지를 4096x4096 해상도까지 생성할 수 있는 text-to-image 프레임워크Sana의 특징고해상도 이미지 생성 가능강력한 텍스트-이미지 일치도 (text-image alignment)노트북 GPU에서 구동 가능할 정도의 엄청나게 빠른 속도Sana의 핵심 디자인심층 압축 오토 인코더 (Deep Compression Autoencoder)이미지를 8x 만 압축하는 기존의 AE (AutoEncoder)와는 다르게 본 논문에서는 32x로 이미지를 압축하는 .. 2025. 4. 11. SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Link: https://arxiv.org/pdf/2501.171610. Abstract지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경두개의 검증 환경 사용GeneralPoints: 수학적 추론이 필요한 카드 게임V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 .. 2025. 2. 28. StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs Link: https://arxiv.org/pdf/2410.07745깃허브: https://github.com/yuyq18/StepTool0. Abstract대형 언어 모델 (Large Language Model, LLM)의 강력한 논리 및 추론 능력에도 불구하고 LLM은 여전히 복잡한 문제를 풀기 위해 실시간 정보 검색이나 특정 도메인의 전문 지식을 필요로 함 → 이를 도구 학습 (Tool Learning)이라고 함기존 tool learning 기법들의 한계주로 전문가의 도구 선택 과정을 언어적 관점에서 토큰 시퀀스를 학습하는 방식으로 튜닝이 방식은 정적인 선택 과정을 모방하므로 새로운 문제에 대해 일반화하는 능력이 제한됨또한 전문가의 도구 선택 과정이 최적이 아니고 더 나은 방법이 있을 가능성이 있음.. 2025. 2. 15. Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models 논문 링크: https://arxiv.org/pdf/2406.09403프로젝트 링크: https://visualsketchpad.github.io/0. Abstract사람은 추론 능력 향상을 위해 그림을 그림예시: 기하학 문제를 풀 때 추가적인 선을 그림, 지도를 볼 때 표시를 하거나 동그라미를 그림, …그러나 이런 행동은 현재의 멀티모달 언어 모델 (LMs)에는 사용하지 않음현재의 CoT (Chain-of-Thought)과 도구 사용 (tool-use)은 중간 추론 과정에서 텍스트만을 사용본 논문에서는 SKETCHPAD 기법을 제안LM이 스스로 그린 시각적인 내용을 기반으로 계획 (planning)과 추론 (reasoning)을 수행text-to-image 모델을 사용하여 LM이 그릴 수 있게 한 기존.. 2025. 1. 21. 이전 1 2 3 4 5 다음 반응형