Link: https://arxiv.org/pdf/2501.17161

0. Abstract

지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들
그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함
본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경
두개의 검증 환경 사용
- GeneralPoints: 수학적 추론이 필요한 카드 게임
- V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 도메인에서 본적 없는 변화에 일반화 될 수 있는지 평가
위 검증을 통해 RL을 결과 기반의 보상 (outcome-based reward)으로 학습한 경우 규칙 기반의 텍스트와 이미지 환경 모두에서 일반화 성능을 보임
SFT는 이와 대조적으로 학습 데이터를 외우는 경향을 보였으며 두 검증 모두 훈련 데이터를 벗어난 (out-of-distribution, OOD) 데이터에 대해 좋지 못한 일반화 성능을 보임
이런 분석들은 RL이 시각적인 도메인의 일반화 성능을 강화하여 시각적인 인지 성능을 향상시킨다는 것을 보임 → 복잡한, 멀티모달 문에에서 일반화 된 지식을 취득
하지만 SFT도 여전히 효과적인 RL 학습에 도움이 된다는 것을 보임 → SFT는 모델의 출력 형식을 안정화하며 이후의 RL이 성능 향상을 달성할 수 있도록 함

1. Introduction

SFT와 RL은 기반 모델 학습에 널리 사용됨 → 하지만 해당 기법들의 일반화에 대한 성능은 불분명
본 논문에서는 SFT나 RL이 학습 데이터를 외우는데 주요한 역할을 하는지, 혹은 일반화 되어 새로운 변형된 문제에 적응할 수 있는지를 검증
일반화에 대해 2개의 측면에 집중
- 규칙 기반의 텍스트 일반화 (Textual rule-based generalization)
  - 학습된 규칙과 변형된 규칙을 적용했을 때 모델의 능력 검증
- 시각적인 일반화 (Visual generalization)
  - 색이나 공간적인 외형과 같은 시각적 입력에 대한 변형에 대해 일관적인 성능을 보이는지 측
텍스트 기반과 시각적 기반 일반화를 위해 2개의 다른 문제를 통해 검증 수행
- GeneralPoints: 모델의 산술적 추론 능력을 평가하기 위해 디자인
- V-IRL: 실제 네비게이션 문제로 모델의 공간적인 추론 능력을 평가
본 논문에서는 멀티 스텝 RL 프레임워크를 적용 → 백본 (backbone) 모델에 SFT를 적용 후 RL 적용
GeneralPoints와 V-IRL 모두 RL이 규칙을 일반화 → 훈련 데이터를 통해 얻은 성능을 본적 없는 규칙에 대해서 전이
이와 대조적으로 SFT는 학습된 규칙을 외우고 일반화 하지 못하는 경향을 보임 → 그림 1의 예시 참고

또한 텍스트 규칙 기반의 일반화를 넘어 시각적인 도메인의 일반화에서 RL이 시각적인 OOD 문제에서 일반화를 달성하는 것을 확인, 반면 SFT는 여전히 나쁜 성능을 보임
- 시각적인 OOD 일반화 성능에서 멀티턴 RL은 SoTA (State-of-the-art) 성능을 달성 → V-IRL mini 벤치마크에서 33.8%의 성능 향상을 보임 (44.0% → 77.8%)
어떻게 RL이 모델의 시각적 능력에 효과를 주는지 이해하기 위해 GeneralPoints에서 추가적인 분석수행
- 출력 기반 보상 함수를 사용하여 RL을 학습 → RL이 SFT에 비해 뛰어난 일반화를 달성
하지만 RL이 SFT에 비해 뛰어난 일반화 성능을 보여도 SFT는 여전히 모델의 출력 형식 안정화에 도움을 주며 이것이 RL이 추가적인 성능 향상을 달성할 수 있도록 함

2. Preliminaries

Standard RL terminology

유한한 시간 범위에서의 결정 문제 (finite horizon decision making)를 고려 → 일반적인 RL의 개념을 적용할 수 있음
- $\mathcal{S}$: 상태 공간
- $\mathcal{A}$: 행동 공간
- $r: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$: 보상함수
- $T$: 에피소드 당 최대 스텝 수
목표: 전체 반환값 $\max_{\pi \in \Pi} \mathbb{E}{\pi} [\sum{t=0}^{T} r_t]$를 최대화하는 정책 $\pi : \mathcal{S} \rightarrow \mathcal{A}$를 학습하는 것
- $\pi(a|s) \in [0,1]$을 사용 → 상태 $s$에서 $a$를 선택할 확률 = $\pi$

Adapting RL terminology to LLM/VLM with a verifier

기반 모델 학습에 멀티턴 RL 세팅을 채택
- $\mathcal{V}$: 이산적이고 유한한 단어 (토큰) 공간
- $\mathcal{V}^m, \mathcal{V}^n$: 입력과 출력 텍스트 공간 → $m, n$은 입력 시퀀스 $v^{in}$과 출력 시퀀스 $v^{out}$의 최대 토큰 길이
- $\mathcal{O}$: 모델이 시각적 입력을 요구하는 경우 (VLM) RGB 이미지의 공간
- VLM에 대한 상태 공간은 $\mathcal{S} := \mathcal{V}^m \times \mathcal{O}$로 정의하며 LLM에 대해서는 $\mathcal{S} := \mathcal{V}^m$으로 정의
- $VER: \mathcal{V}^n \rightarrow \mathbb{R} \times \mathcal{V}^k$를 검증자 (Verifier)로 정의 → $v^{out}$의 출력을 평가하고 텍스트 정보 $v^{ver}$와 출력 기반의 보상 함수 $r$을 생성
  - 수학적으로 시간 $t$에 대해 $VER(v_t^{out}) \rightarrow (r_t, v_t^{ver})$로 정의
  - 파라미터 $\theta$를 가지는 모델을 정책 네트워크 $\pi_{\theta}:\mathcal{S} \rightarrow \mathcal{V}^n$으로 정의하고 PPO를 강화학습 모델로 사용하여 $\pi_{\theta}$를 업데이트

Sequential revision

상태-행동 변환을 모델링 하기 위해서 sequential revision formulation 사용
- 시간 스텝 $t=0$에서 초기 입력 $v_0^{in}$은 시스템 프롬프트로 구성되어 있음
- 이후 시간 스텝 $(t \geq1)$에 대해 입력 프롬프트 $v_t^{in}$는 모든 모델의 시스템 프롬프트와 verifier 출력을 연결한 형태 → $[v_k^{out}, v_k^{ver}]_{k=0}^{t-1}$
Sequential revision을 도식화 한 것은 그림 2 참고

상태-행동 전이의 예시는 그림 3 참고

3. Evaluation Tasks

서로 다른 사후 학습 기법의 일반성을 평가하기 위해 2개의 문제를 적용
- GeneralPoints: 산술적 추론 능력을 평가하기 위해 디자인 된 새로운 환경
- V-IRL: 실제 시각적 네비게이션 문제에서 모델의 추론 능력을 평가하기 위한 환경

3.1. The General Points Environment

GeneralPoints는 산술적 추론의 일반화를 평가하기 위해 디자인 된 환경
- 환경의 각 상태 $s$는 4장의 카드를 포함
  - 이를 텍스트로 설명하는 경우의 환경을 GP-L로 표기
  - 이를 이미지로 나타내는 경우의 환경을 GP-VL로 표기
그림 2의 왼쪽을 보면 GeneralPoints의 시각적인 예시를 살펴볼 수 있음
- 목표는 4장의 카드들의 숫자를 사용하여 타겟 숫자 (예시: 24)를 달성하는 수식을 만드는 것

Rule variation

모델은 사후 학습 데이터 단순히 외우거나 산술적인 연산을 학습
이를 검증하기 위해 규칙에 변화를 줌
- 규칙1: J, Q, K와 같은 문양을 각각 숫자 11, 12, 13으로 사용
- 규칙2: J, Q, K를 모두 동일한 10으로 사용
이런 변경은 다양한 세팅에서 모델의 산술적인 추론의 일반화 성능을 평가할 수 있음
각 규칙은 입력 프롬프트에 텍스트 형태로 제공 → 그림 3의 [tasks rule] 부분에 사용
규칙 기반 일반화를 살펴보기 위해 하나의 규칙으로 모델을 사후 학습하고 다른 규칙을 사용하여 평가를 수행

Visual variation

시각적 변화에 대한 일반화 성능을 평가
주요한 시각적 도전과제 → 카드의 색에 관계 없이 각 카드의 숫자를 인지하는 것
이에 따라 다른 색을 시각적인 변화로 설정 → 시각적 일반화 세팅을 위해 하나의 색으로 모델을 학습하고 다른 색으로 일반화 성능 검증

3.2. The V-IRL Environment

V-IRL 환경은 실제 네비게이션에서 실제적인 시각 입력을 사용하여 공간적인 추론 능력을 검증
두 버전의 환경 사용
- V-IRL-L: 순수하게 글로만 설명한 환경
- V-IRL-VL: 시각-언어적인 입력 사용
V-IRL의 주요한 시각적 도전은 시각적인 관측으로부터 다른 랜드마크들을 인지하는 것
목표: 공간적인 정보를 포함한 명령의 세트를 따라서 타겟 위치까지 이동하는 것

Rule variation

모델이 공간적인 지식을 가지게 되는 것인지, 단순히 학습 데이터를 외우는 것인지 검증하기 위해 2개의 행동 공간을 설정
- 절대 방향 행동 공간 (absolute orientation action space) 사용 (”북”, “북동”, “동”, “남동”, “남”, “남서”, “서”, “북서”)
- 상대 방향 행동 공간 (relative orientation action space) 사용 (”왼쪽”, “오른쪽”, “약간 왼쪽”, “약간 오른쪽”) → 90도나 45도 회전
V-IRL의 네비게이션 문제는 그림 4에서 살펴볼 수 있음

또한 V-IRL의 상태-행동 변화에 대한 자세한 설명은 그림 13을 참고

Visual variations

V-IRL의 주요한 시각적인 어려움은 랜드마크를 인지하는 것 → 그림 4의 초록색 부분 참고
V-IRL 환경은 여러 다른 도시들의 시각적인 관측을 포함하고 있으므로 한 위치에서 네비게이션을 하도록 모델을 학습하고 해당 모델의 성능을 다른 도시에서 평가

4. Results

Llama-3.2-Vision-11B를 백본 모델로 사용
표준 RLHF와 RL4VLM 파이프라인을 따름 → 모델은 RL 적용 전에 SFT로 초기화

4.1. Generalization across Rules

GeneralPoints와 V-IRL에 대해 순수한 언어 (-L)와 비전-언어 (-VL)에 대한 변형을 사용 → 규칙에 대한 변형도 포함
학습 분포 내부 데이터에 대한 (In-Distribution, ID) 학습 성능과 본적 없는 규칙을 적용한 학습 분포 외부 데이터에 대한 (Out-Of_Distribution, OOD) 일반화 성능을 살펴볼 예정
GenenralPoints
- ID: J, Q, K를 10으로 설정
- OOD: J, Q, K를 11, 12, 13으로 설정
V-IRL
- ID: 절대 방향 행동 공간 사용
- OOD: 상대 방향 행동 공간 사용

RL generalizes, SFT memorizes

그림 5에서 나온 것 처럼 RL은 지속적으로 LLM, VLM 등의 모든 문제에서 OOD 성능을 개선

특히 그림 6에서 볼 수 있듯이 LLM에서 RL은 다음과 같이 성능 개선
- GP-L: +3.5% 성능 개선 (11.5% → 15%)
- V-IRL-L: +11% 성능 개선 (80.8% → 91.8%)
VLM에서는 RL이 다음과 같이 성능 향상을 보임
- GP-VL: +3% 성능 개선 (11.2% → 14.2%)
- V-IRL-VL: +9.3% 성능 개선 (35.7% → 45%)
이와 대조적으로 SFT의 경우 모든 문제의 OOD 평가에서 성능 하락을 보임
- GP-L: -8.1% 성능 하락 (11.5% → 3.4%)
- V-IRL-L: -79.5% 성능 하락 (80.8% → 1.3%)
- GP-VL: -5.6% 성능 하락 (11.2% → 5.6%)
- V-IRL-VL: -33.2% 성능 하락 (35.7% → 2.5%)

4.2. Generalization in Visual Out-of-Distribution Tasks

다음으로 시각적인 변화를 주었을 때 OOD 일반화 성능을 살펴보자
- GeneralPoints의 경우 검정 문양 (클로버, 스페이드)으로 VLM을 학습하고 빨간 문양 (다이아몬드, 하트)을 사용하여 OOD 성능을 테스트
- V-IRL에 대해서는 뉴욕에서 수집된 데이터를 학습을 수행하고 원본 V-IRL VLN 미니 벤치마크에서 평가 수행 (전세계 다양한 도시들의 거리를 포함)

RL generalizes in visual OOD tasks

그림 7을 살펴보면 시각적인 OOD 문제에 대해 SFT는 어려움을 겪지만 RL은 여전히 일반화를 잘 수행하는 것을 확인할 수 있음

특히 GP-VL과 V-IRL-VL에서 RL은 다음과 같은 성능 향상을 보임
- GP-VL: +17.6% 성능 향상 (23.6% → 41.2%)
- V-IRL-VL: +61.1% 성능 향상 (16.7% → 77.8%)
반면 SFT는 다음과 같은 성능 저하를 보임
- GP-VL: -9.9% 성능 하락 (23.6% → 13.7%)
- V-IRL-VL: -5.6% (16.7% → 11.1%)
본 논문의 멀티턴 RL은 V-IRL 미니 벤치마크에서 SoTA 성능을 보임 → 33.8% 성능 향상 (44.0% → 77.8%)

4.3. RL Improves Visual Capabilities

다음 질문: 어떻게 RL이 VLM의 시각적 능력에 영향을 미칠까?
- 이 질문에 대해 알아보기 위해 GP-VL에서 추가적인 ablation study 진행
모델의 시각적인 인지 정확도를 통해 검증 → 입력 이미지에 있는 4개의 카드를 인지하는지 확인
RL과 SFT를 통해 사후 학습 계산량을 늘리는 것이 규칙 기반 OOD의 일반화와 (그림 8 왼쪽) 시각적 인지 정확도, 시각적 OOD에 (그림 8 오른쪽) 영향을 미치는지 확인

Scaling RL improves visual recognition accuracy in VLM training

그림 8에서 볼 수 있듯이 VLM의 시각적 인지 정확도는 전체적인 성능에 큰 형양을 미침
추가적으로 RL 계산량을 증가시키는 것은 시각적인 인지 정확도를 개선하는 반면 SFT의 계산량을 증가하는 것은 시각적 인지 정확도와 전반적인 성능을 저하시킴

4.4. The Role of SFT for RL Training

모델의 추론과 시각적 능력의 일반화에 RL의 우수성을 확인했지만 실험 파이프라인은 여전히 SFT 이후에 RL을 수행하는 방식을 사용
이에 따라 다음과 같은 질문을 할 수 있음 → SFT가 RL 학습을 위해 필요할까?
이에 대해 응답하기 위해 GeneralPoints의 언어 버전을 사용하여 Llama 3.2를 기반으로 end-to-end RL만을 사후 학습에 직접 적용한 추가 실험을 수행 → 그림 9 참고

SFT is necessary for RL training when the backbone model does not follow instructions

그림 9는 SFT 없이 end-to-end RL만을 적용했을 때 개선에 실패한 결과를 보임
더 자세히 살펴보면 SFT를 적용하지 않은 경우 기반 모델은 명령을 따르는 능력에 있어 나쁜 성능을 보임 (실패 케이스는 그림 20을 참고)

위 결과는 기반 Llama-3.2-Vision-11B 모델이 길고, 주제를 벗어나며 구조화되지 않은 응답을 하는 것을 보임
해당 문제는 문제와 관련된 정보를 검색하거나 강화학습을 위한 보상을 제공하지 못하도록 함

4.5. Role of Verification Iterations

검증 (Verification)은 본 논문의 멀티스텝 학습과 평가 파이프라인에 주요한 요소 (그림 2, 3 참고)
검증의 필요성과 효과를 더 잘 이해하기 위해 GP-L에서 검증 반복 횟수를 다르게 하며 (1, 3, 5, 10) 실험을 수행 (그림 10 참고)

Scaling up verification improves generalization

그림 10을 보면 RL이 더 많은 검증 스텝을 수행할수록 일반화를 잘 하는 것을 확인할 수 있음
동일한 계산량 하에서 +2.15% (3 스텝), +2.99% (5 스텝), +5.99% (10 스텝)의 성능 개선을 확인
이와 대조적으로 1스텝 검증의 경우 OOD 성능에서 +0.48%의 개선을 보임

5. Conclusion, Discussion and Limitations

본 논문에서는 기반 모델에 대해 RL, SFT와 같이 사후 학습을 수행하는 것의 일반화 효과를 분석
GeneralPoints와 V-IRL 문제를 통해 성능 검증을 수행했고 RL이 일반화 된 지식을 학습하는데 뛰어난 성능을 달성함을 보였지만 이에 반해 SFT는 학습 데이터를 외우는 경향을 보임 (규칙, 시각 변환 모두)
이 현상은 멀티모달 산술 능력이나 공간적 추론 능력 등에도 지속적으로 적용됨
또한 본 논문에서는 시각적인 인지에서 RL의 효과와 SFT의 역할, 검증 스텝의 역할 등을 살펴봄
하지만 본 논문에서는 아래와 같이 2개의 풀지못한 과제들이 남아있음

Failure of SFT on GP-VL

그림 5를 살펴보면 GP-VL에서 SFT가 RL과 달리 ID 성능을 달성하는 것에 실패함
추가적으로 다른 학습률과 튜닝 파라미터를 수정하며 10번의 실험을 수행했지만 (그림 16) 어떤 것도 RL과 같이 성능이 향상되는 경향을 보이지 않음 (그림 17)

또한 그림 8을 참고하면 SFT 연산을 더 수행하는 것은 시각적인 인지 능력의 성능 감소를 보임
본 논문의 가설
- SFT는 추론 토큰의 높은 빈도 때문에 지역적으로 추론 토큰을 과적합하고 인지 토큰을 무시 (그림 11 참고)

Limits of RL in corner cases

SFT는 Llama-3.2의 효과적인 RL 학습을 위해 필요함 → RL을 과하게 튜닝된 SFT 체크포인트에 적용해봄
그림 19와 같이 이런 체크포인트에서 학습했을 때는 RL이 OOD 성능을 회복하지 못함
실패 케이스는 그림 21에서 살펴볼 수 있음

Future work → 어떤 SFT가 효율적인 RL 학습을 촉진시킬 수 있는지 살펴볼 것

'논문 리뷰 > Reinforcement Learning' 카테고리의 다른 글

StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs (0)	2025.02.15
World Models with Hints of Large Language Models for Goal Achieving (0)	2024.11.24
Pretraining for Language-Conditioned Imitation with Transformers (3)	2024.11.23
Stop Regressing: Training Value Function via Classification for Scalable Deep RL (0)	2024.11.22
Guiding Pretraining in Reinforcement Learning with Large Language Models (1)	2024.11.21

박사개구리의 블로그

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

0. Abstract

1. Introduction

2. Preliminaries

Standard RL terminology

Adapting RL terminology to LLM/VLM with a verifier

Sequential revision

3. Evaluation Tasks

3.1. The General Points Environment

Rule variation

Visual variation

3.2. The V-IRL Environment

Rule variation

Visual variations

4. Results

4.1. Generalization across Rules

RL generalizes, SFT memorizes

4.2. Generalization in Visual Out-of-Distribution Tasks

RL generalizes in visual OOD tasks

4.3. RL Improves Visual Capabilities

Scaling RL improves visual recognition accuracy in VLM training

4.4. The Role of SFT for RL Training

SFT is necessary for RL training when the backbone model does not follow instructions

4.5. Role of Verification Iterations

Scaling up verification improves generalization

5. Conclusion, Discussion and Limitations

Failure of SFT on GP-VL

Limits of RL in corner cases

'논문 리뷰 > Reinforcement Learning' 카테고리의 다른 글

티스토리툴바

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

0. Abstract

1. Introduction

2. Preliminaries

Standard RL terminology

Adapting RL terminology to LLM/VLM with a verifier

Sequential revision

3. Evaluation Tasks

3.1. The General Points Environment

Rule variation

Visual variation

3.2. The V-IRL Environment

Rule variation

Visual variations

4. Results

4.1. Generalization across Rules

RL generalizes, SFT memorizes

4.2. Generalization in Visual Out-of-Distribution Tasks

RL generalizes in visual OOD tasks

4.3. RL Improves Visual Capabilities

Scaling RL improves visual recognition accuracy in VLM training

4.4. The Role of SFT for RL Training

SFT is necessary for RL training when the backbone model does not follow instructions

4.5. Role of Verification Iterations

Scaling up verification improves generalization

5. Conclusion, Discussion and Limitations

Failure of SFT on GP-VL

Limits of RL in corner cases

'논문 리뷰 > Reinforcement Learning' 카테고리의 다른 글

관련글

티스토리툴바