Processing math: 100%
본문 바로가기
논문 리뷰/Reinforcement Learning

StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs

by 박사개구리 2025. 2. 15.

0. Abstract

  • 대형 언어 모델 (Large Language Model, LLM)의 강력한 논리 및 추론 능력에도 불구하고 LLM은 여전히 복잡한 문제를 풀기 위해 실시간 정보 검색이나 특정 도메인의 전문 지식을 필요로 함 → 이를 도구 학습 (Tool Learning)이라고 함
  • 기존 tool learning 기법들의 한계
    • 주로 전문가의 도구 선택 과정을 언어적 관점에서 토큰 시퀀스를 학습하는 방식으로 튜닝
    • 이 방식은 정적인 선택 과정을 모방하므로 새로운 문제에 대해 일반화하는 능력이 제한됨
    • 또한 전문가의 도구 선택 과정이 최적이 아니고 더 나은 방법이 있을 가능성이 있음
  • 이에 따라 본 논문에서는 LLM의 도구 학습을 개선하기 위한 새로운 단계적 (Step-grained) 강화학습 프레임워크 제안 → StepTool
  • 해당 기법은 2가지 요소로 구성됨
    • Step-grained Reward Shaping: 도구 호출이 성공했는지, 이것이 얼마나 문제 해결에 기여했는지를 기반으로 각 도구 호출에 대해 보상을 할당
    • Step-grained Optimization: 정책 경사 (Policy Gradient) 방식을 사용하여 다수의 스텝에 대해 모델을 최적화
  • 실험 결과는 StepTool이 다수의 스텝, 도구 기반 문제에서 기존 기법의 성능을 능가하는 것을 보임 → 복잡한 문제에 대해 강인한 해결 방법을 제안

1. Introduction

  • LLM은 논리와 추론 능력에 있어서 뛰어난 성능을 보이며 다양한 문제에 대해 탁월한 성능을 보임
  • 하지만 몇몇 복잡한 문제는 실시간 정보나 도메인 특화 지식을 요구하며 이런 문제는 LLM 자체의 지식만으로는 풀기 어려움
  • 이에 따라 최근 외부 도구 (APIs)를 통해 LLM을 강화하는 방법인 도구 학습 (Tool Learning)이 사용됨
  • 그림 1과 같이 LLM이 동적으로 도구를 선택하고, 호출하고, 상호작용하며 실시간 응답을 받음

  • 외부 도구를 사용한 다수의 상호작용 스텝 이후 LLM은 효과적으로 복잡한 문제를 풀기 위해 필요한 정보들을 수집
  • LLM의 도구 학습 능력을 향상 시키기 위한 방법 1 → Supervised Fine Tuning (SFT)
    • LLM이 전문가에 의해 생성된 도구 선택 경로 (trajectory)를 모방하도록 학습
    • 각 경로는 사용자의 쿼리, 다수의 도구 호출과 응답에 대한 시퀀스로 구성 (그림 1 참고)
    • SFT는 LLM을 도구 학습에 사용하기 위해 학습할 때 2가지 한계를 가짐
      • 사전에 정의된 정적인 도구 시퀀스를 모방하므로 새로운 문제나 환경에서 모델이 적응하는 능력을 제한
      • 전문가의 경로는 문제를 성공적으로 해결하지만 도구 호출의 최적 시퀀스는 아닐 수 있음
  • LLM의 도구 학습 능력을 향상 시키기 위한 방법 1 → Reinforcement Learning (RL)
    • 도구 학습을 순차적 결정 문제로 설정
    • 각 도구 호출 스텝이 행동 (action)이고 이것이 상태 변환을 일으킴 → 모델은 행동-상태 변환으로 부터 학습
    • 기존의 연구들은 사람의 선호 (RLHF)에 일치하도록 LLM을 최적화하는 학습 방식을 사용
    • 하지만 이런 방법은 몇가지 이유로 도구 학습에 적절하지 않음
      • 도구 학습은 다수의 결정 단계와 실시간 피드백을 포함 → 하지만 RLHF는 단일 스텝을 기반으로 하고 환경으로부터의 피드백이 없음
      • 도구 학습의 각 단계의 보상은 더욱 복잡함 → 도구 호출 성공 뿐 아니라 이것이 문제 해결에 얼마나 기여했는지도 고려해야함
  • 본 논문은 도구 학습을 위한 새로운 단계적 강화학습 프레임워크인 StepTool을 제안
    • 도구 학습을 순차적 결정 과정으로 모델링하고 각 도구 상호작용을 문제 해결에 직접 영향을 미치는 결정 지점으로 취급
    • 그림 1과 같이 StepTool은 2가지 주요 요소로 구성됨
      • Step-grained Reward Shaping
        • 각 스텝마다 도구 호출에 대한 정확도와 전체적인 문제 해결에 대한 기여도를 보상으로 디자인
      • Step-grained Optimization
        • 단계적 강화학습 기반 최적화 방법에 기반한 정책 경사 이론을 제안
    • 본 논문의 기법은 동적이고 다수의 스텝에 대해 상호작용을 수행하며, RLHF와 같은 단일 스텝 접근의 한계를 해결
  • Contribution
    • 도구 학습에 있어 정적인 SFT 방식의 한계와 기존 RLHF 기반의 방법의 부적절성을 확인
    • 단계적 강화학습 프레임워크인 StepTool 제안 → 도구 학습을 다수의 스텝으로 구성된 의사 결정 과정으로 생각하여 모델이 실시간으로 행동-상태 변환에 대한 환경의 피드백을 받아 학습을 수행
    • 도구 학습 시나리오를 위한 단계적 보상을 디자인 → 도구 호출의 정확도, 전체 문제에 대한 기여를 기반으로 설계
    • 추가적으로 정책 경사를 기반으로하는 단계적 최적화 기법을 제안 → 동적, 다중 스텝 상호작용에 적응하는 것을 보장
    • 3개의 오픈소스 모델들과 비교 실험을 수행하여 StepTool의 효율성을 증명 → 복잡한 문제 해결에 성능을 향상시키는 것을 확인

2. Problem Formulation

  • LLM의 도구 학습 과정을 다중 스텝 의사 결정 문제로 모델링 → Markov Decision Process (MDP)로 정의
  • MDP는 M=(S,A,P,R,γ)로 나타낼 수 있으며 각 의미는 다음과 같음
    • S: 상태 공간이며 각 상태 stS는 시간 t에서 현재 컨텍스트나 환경 응답을 나타냄
    • A: 행동 공간이며 각 행동 atA는 시간 t에 외부 도구 (API) 호출이나 최종 응답 생성을 생성하는 것
    • P: 상태 변환 확률로 P(st+1|at,st)는 상태 st와 행동 at가 주어졌을 때 새로운 상태 st+1로 변환할 확률을 나타냄 → 도구의 적용에 따라 어떻게 환경이 변하는지 나타냄
    • R: 보상함수이며 현재 상태 st, 행동 at에 기반하여 보상 rt=R(st,at)를 할당 → 도구 호출 단계의 효율성을 나타냄
    • γ: 감가율로 즉각적인 보상과 장기적인 보상에 대한 균형을 결정
  • LLM의 도구 선택 전략을 의사 결정 정책 πθ로 수식화 (파라미터: θ)
    • πθ: 현재 상태가 주어졌을 때 행동 (도구)의 선택을 결정
    • 경로 τ{s1,a1,s2,a2,...,sT,aT}는 시간에 따른 상태와 행동의 시퀀스를 나타냄 → LLM과 외부 도구 혹은 환경 사이의 다중 상호작용을 나타냄
  • 최종 문제 해결 성능을 최대화하기 위해 모델은 기대 보상 ¯Rθ를 최적화
    • R(τ): 주어진 경로 τ에 대한 보상
    • πθ(τ): 정책 πθ에서 경로를 생성할 확률

  • 기대 보상의 기울기는 모델 파라미터 업데이트에 계산될 수 있음 → LLM의 문제 해결 능력을 향상

  • 대부분의 정책 기울기 기반 강화학습 알고리즘과 같이 학습 효율 향상과 학습 안정화를 위해 R(\tau)를 어드밴티지 함수 \hat{A}(s_t, a_t)로 대체 → 상태의 가치에 대한 행동의 상대 가치를 특정
    • Gnt: 예측된 미래 보상
    • V(st): 가치 함수 (현재 정책을 따를 때 상태 st로부터 시작했을 때 기대되는 반환값을 추정)

3. Method

  • StepTool은 어드밴티지 함수 (식 3)과 정책 경사 수식 (식 2)의 주요 원리에 따라 디자인 됨
  • 그림 2와 같이 StepTool은 2가지 주요 요소로 구성되어 있음

3.1. Step-grained Reward Shaping

  • Step-grained Reward Shaping은 중간 과정에서 스텝 단계의 보상을 제공 → 효율적으로 모델이 의사 결정을 하도록 가이드
  • 이런 단계적 (step-grained) 보상은 각 행동에 대해 명시적인 피드백을 제공하여 지연된 보상 (delayed reward)의 한계를 극복

3.1.1. Step-grained Reward Design

  • 도구 호출 행동의 잘 정의된 형식과 명시적인 문제 목표를 고려하여 2개의 핵심 요소를 디자인
    • 도구 호출 행동의 성공 여부 (SuccCalling)와 문제 해결에 대한 기여 (Contribution)
    • 최종적으로 문제의 달성에 대한 보상을 고려 (IsSolved) → 유저의 쿼리가 풀렸는가를 나타냄

SuccCalling

  • SuccCalling 지표는 모델이 정확한 형식과 내용으로 도구 호출을 성공적으로 수행했는지 평가 - i.e. 도구의 이름과 인수 (argument) → ˆrtSC=SuccCalling(at,st+1)로 정의
  • 하지만 단순히 도구를 잘 호출하는 것은 문제 해결을 보장하지는 않음 → Contribution 지표를 사용하여 도구의 행동이 전체 문제 해결에 얼마나 도움을 주었는지 평가

Contribution

  • Contribution 지표는 도구의 행동이 전체적인 문제 해결에 도움이 되었는지를 평가
  • 필요 없는 추가 스텝이나 관련 없는 출력과 같이 최소한으로 기여하는 행동을 낮은 보상을 받음
  • Contribution 점수는 현재 행동과 최종 문제 해결 행동 사이의 관계에 기반 → ˆrCont=Contribution(at,aT)로 정의

IsSolved

  • 최종 단계의 보상은 문제가 성공적으로 해결되었는지와 직접적으로 연관이 있음
  • 초기 사용자의 쿼리에 기반한 최종 응답을 평가 → ˆrISt=IsSolved(q,aT)로 정의
  • 보상은 오직 사용자의 쿼리에 대한 최종 단계 응답의 정답 여부에 의존
  • 이에 따라 스텝 t에서 각 행동의 보상을 다음과 같이 정의할 수 있음
    • \alpha: 각 요소에 대한 가중치

  • 중간 단계의 보상과 최종 스텝의 보상은 모두 uniform 스케일로 정규화

3.1.2. Step-grained Reward Acquisition

  • 단계적 보상을 포함하는 학습 데이터 생성을 위해 먼저 학습셋 문제에 대한 모델의 추론을 통해 다수의 경로를 취득 → 각 경로는 외부 도구나 환경과 모델 사이에서 일어나는 다수의 상호작용으로 구성되어 있음
  • 본 논문에서는 규칙 기반 시스템과 GPT-4를 이용하여 보상을 생성 → 참조 C의 그림 6 참고

  • 위와 같은 단계적 데이터는 오프라인 강화학습의 최적화에도 사용될 수 있고 온라인 학습을 위한 보상 모델 학습에도 사용될 수 있음

3.2. Step-grained Optimization

3.2.1. Step-grained Optimization Objective

  • 이제 토큰 단위로 기대 보상의 경사 (gradient)를 계산
  • 각 행동 atLt 토큰들의 시퀀스로 구성되어 있을 때, 스텝 단계에서 기대되는 반환값 ¯Rθ의 경사는 다음과 같음

  • ˆA(st,at): 스텝 t에서 행동 시퀀스 at (Lt개의 토큰들로 구성)에 대한 어드밴티지를 나타냄
    • 각 행동 시퀀스의 어드밴티지를 . 잘반영하기 위해 단계별 보상 ˆrt를 사용해서 어드밴티지 함수 ˆA(st,at)를 다음과 같이 구현
      • Gnt은 단계별 보상 rt rtγ에 의해 감가된 누적 미래 보상을 나타냄
      • V(st)는 현재 상태의 가치 함수

 

  • 최적화 목적함수는 다음과 같이 수식화 → 스텝 단계의 어드밴티지에 따라 정책 \pi_\theta를 최적화하는 목적함수

  • 추가적으로 이를 기존 RLHF와 비교해보자
    • 해당 기법은 “프롬프트 응답”에 대한 사람의 선호를 기반으로 구한 최종 보상을 최적화 → 문제를 단일 스텝 ( T=1)로 고려한 것과 동일
    • 그러나 도구 학습 시나리오는 다수의 스텝에 대한 상호작용을 포함하며 각 경로는 다수의 중간 스텝들로 구성되어 있음
    • 본 논문의 기법은 각 스텝에서 단계별 보상과 최적화를 적용하여 T>1의 더욱 복잡한 케이스를 해결

3.2.2. A Practical Instantiation with PPO

  • 정책 기반 강화학습 알고리즘 중 PPO (Proximal Policy Optimization) 알고리즘을 사용
  • 어드밴티지는 안정성 향상을 위해 GAE (Generalized Advantage Estimation)을 사용하여 추정

  • 안정적인 학습을 위해 PPO-clip 버전을 사용 → 최적화 중 큰 업데이트를 방지
  • Clipped PPO의 목적함수
    • πθ: 이전의 경로를 생성한 과거의 정책
    • ϵ: 현재와 과거 정책 사이의 허용가능한 편차를 조절하는 하이퍼파라미터

  • 안정적 학습을 위해 각 토큰에 대해 과거 정책으로부터 per-token KL divergence penalty를 사용 (RLHF에서 제안된 기법) → 최적화 중 큰 정책 변화를 방지

4. Experiments

4.1. Experimental Settings

Benchmark & Evaluation Metrics

  • StableToolBench 사용 → 765개의 문제와 6개의 하위 항목으로 구성되었으며 다양한 도구 카테고리와 복잡성을 제공
  • 2개의 주요한 지표를 사용하여 평가
    • pass rate: 모델이 해결한 문제의 비율을 측정
    • win rate: 얼마나 자주 모델이 다른 베이스라인의 성능을 능가했는지 측정
  • StableToolBench의 테스트 문제들에 대한 통계는 아래의 표 1 참고

Baselines

  • 기존의 도구 학습은 대부분 SFT를 통해 수행 → 동일한 데이터로 학습한 SFT를 베이스라인으로 사용
  • 또한 강화학습 기반의 도구 학습으로는 RLHF-PPO를 베이스라인으로 사용
  • 3개의 오픈소스 모델을 사용하여 평가
    1. ToolLLaMA-2-7b-v2 (ToolLlama)
    2. Llama3.1-8B-Instruct (Llama3.1)
    3. Qwen2-7B-Instruct (Qwen2)
  • 2개의 전략을 사용
    • Chain of Thought (CoT)
    • Depth-First Search Decision Tree (DFSDT)
  • 비교 데이터를 구축해야하는 이유로 DPO (Directed Preference Optimization)은 제외

Training Setting

  • SFT를 위해 Llama3.1과 Qwen2를 GPT-4로 부터 얻은 정적인 전문가 데이터로 학습 → ToolBench에서 샘플링 한 문제들로 학습
  • ToolLlama는 이미 유사하게 사전학습 되었으므로 그대로 사용
  • RLHF-PPO와 StepTool에 대해서는 5000개의 학습 문제에서 샘플링 된 사용자 쿼리를 통해 각 모델의 응답과 상호작용 경로를 생성
  • 단계별 보상 설정을 위해서 규칙 기반 모델과 GPT-4 (gpt-4-turbo-2024-04-09) 사용
  • 학습 파라미터 및 조건
    • 학습률 = 1e5, 배치사이즈 = 8, 초기 KL 계수 = 0.3, 4개의 NVIDIA A100 GPU 사용

4.2. Main Results

  • 표 2는 3개의 베이스 모델과 2개의 전략을 통해 SFT와 RLHF-PPO, StepTool 사이의 성능을 비교
    • gpt-3.5-turbo-0125는 참조용 벤치마크로 사용

  • StepTool이 일관적으로 SFT와 RLHF-PPO의 성능을 대부분의 하위 문제에서 능가 → 특히 Qwen2로 DFSDT 전략을 테스트한 경우 StepTool이 ‘I2 Ins’를 제외하고 모든 하위 문제에서 60% 이상의 pass rate을 달성
  • 다양한 하위항목에 대해 개선 달성 → 간단한 하위 항목인 I1 Tool 같은 것에 대해서는 StepTool이 1% - 4% 정도의 낮은 성능 향상을 보임, 하지만 ‘I3 Ins’와 같은 복잡한 하위 항목에서는 개선이 5% - 13%로 큼 → 즉, StepTool은 다수의 도구와 카테고리를 가지는 복잡한 문제에서 강점을 가짐
  • StepTool은 win rate 지표를 참고했을 때 더 좋은 해결을 위한 경로를 찾는다는 것을 알 수 있음 → 그림 3을 보면 StepTool의 win rate가 3개의 하위 항목에서 베이스라인들에 비해 좋은 성능을 달성 → ToolLLaMA에서 SFT와 RLHF-PPO에 비해 win rate가 50% ~ 65.8%로 더 좋은 성능을 보임

4.3. Pass@k: Assessing Knowledge Discovery vs. Prior Re-weighting

  • 수학적 추론과 같은 도메인에서 주로 사용하는 Pass@k 지표 계산 → StepTool이 새로운 지식을 찾거나 사전 지식의 가중치를 재조정 할 수 있다는 것을 보임
  • 실험은 CoT 전략에서 ToolLlama에 StepTool 최적화 전과 후 비교 → Temperature 0.7로, 8개의 경로를 샘플링 하여 실험
  • 표 3을 보면 StepTool로 최적화 한 ToolLlama가 Pass@2, Pass@4, Pass@8의 대부분의 실험에서 더 뛰어난 성능을 보임

  • 개선된 Pass@k 점수는 모델이 강화학습 최적화를 통해 사전 지식에 대한 재조정을 했을 뿐 아니라 새로운 지식을 탐색했다는 것도 알 수 있음

4.4. Ablation Study: Impact of Step-grained Components

  • StepTool에서 각 단계별 요소의 기여를 평가하기 위해 2개의 변경 사항에 대한 실험 수행
    • w/o Step-grained Reward → 중간 보상을 0으로 설정
    • w/o Step-grained Opt → 하위 경로가 중간 경로에서 종료되고 PPO로 최적화
  • 표 4를 참고하면 단계별 보상이나 단계별 최적화를 제거하는것이 성능에 큰 하락을 가지고 오는 것을 알 수 있음 → 이 결과를 통해 중간 보상의 중요성이나 RLHF-PPO와 같이 스텝에 대한 의존성에 한계를 확인할 수 있음

4.5. Analysis of Tool Invocation Success Rates

  • 중간 단계에서 본 기법을 통해 도구 호출을 개선하는 것의 효율성을 검증하기 위해 ToolLLaMA와 Qwen2 모델 모두 테스트 셋의 중간 단계에서 도구 호출의 평균 성공률을 계산
  • 그림 4에서 확인할 수 있는 것 처럼 StepTool이 CoT와 DFSDT 세팅에서 중간 도구 호출의 성공률을 상승시킴 → 다수 단계의 문제에서 도구 정확도와 효율성을 개선

4.6. Qualitative Analysis

  • 정성적인 분석을 통해 StepTool이 중간 행동을 어떻게 개선하는지 이해해보자
  • 그림 5는 StepTool이 ToolLlama의 잘못된 도구 선택을 개선하는 상황을 보여줌

  • 사용자가 채널의 정보, 비디오 댓글, 영화의 스트리밍 출처를 요청
  • ToolLlama가 처음에는 정확한 채널과 비디오 댓글을 검색했지만 ‘download_stream’ 도구 대신 ‘getvideoscomment’를 실수로 다시 요청
  • 하지만 StepTool 적용 이후에는 모델이 정확하게 ‘download_stream’ 도구를 사용하는 것을 확인할 수 있음 → 스트리밍 링크를 제공하며 요청을 수행
  • 이 결과가 복잡한 문제에서 중간 결정들을 최적화하는 StepTool의 효율성을 나타냄

5. Conclusion

  • StepTool 기법 제안 → LLM이 여러 도구를 사용하여 복잡한 다중 스텝 문제를 해결하는 능력을 향상시키는 새로운 단계별 강화학습 프레임워크
  • 2개의 핵심 요소로 구성
    • Step-grained Reward Shaping: 도구 호출의 성공과 문제 해걸의 기여를 평가
    • Step-grained Optimization: 정책 경사를 사용하여 각 스텝에서 의사 결정을 최적화
  • 실험은 3개의 오픈소스 모델을 이용하여 수행 → 문제 해결 성능의 효율성을 확인

Limitations

  • PPO 학습 과정이 불안정 할 수 있음
  • 좋은 결과를 달성하긴 했지만 아직 더 성능 향상의 여지가 있음
    • 본 논문의 기법은 다수의 라운드에 대한 온라인 데이터 수집과 최적화를 지원하지만 시간과 비용 문제 때문에 단일 라운드에 대한 오프라인 학습만 수행
    • 이는 성능 향상에 대한 모델의 능력을 제한할 수 있음