본문 바로가기
논문 리뷰/Offline RL

Understanding the World Through Action

by 박사개구리 2024. 11. 25.

논문 링크: https://arxiv.org/abs/2110.12543

 

0. Abstract

  • 머신러닝 기법은 아주 크고 다양한 데이터셋을 통해 아주 크고 high capacity model로 학습을 수행하는 것이 가장 효율적
  • 이에 따라 scale을 위한 bottleneck을 줄이는 방법을 찾기 시작
  • 이런 bottleneck 중 대표적인 것은 사람의 노력을 요구하는 것 → curating and labeling datasets
  • 결과적으로 최근에 주목을 받고 있는 것은 대량의 데이터를 수집할 수 있는 unlabeled data를 사용하는 것
  • 본 논문에서는 unlabeled data를 사용하기 위한 general, principled and powerful 프레임워크가 Reinforcement Learning을 통해 얻어질 수 있을 것이라 주장
  • Offline RL의 경우 큰 데이터셋을 활용할 수 있음
  • 본 논문의 discuss
    • 어떻게 이런 과정이 potential downstream task와 밀접하게 연관이 있는지
    • 어떻게 최근에 발전되어온 기존 기법들에 이를 적용할 수 있는지

1. Introduction

  • Machine Learning의 경우 다양한 분야의 어려운 문제들을 잘 풀어왔음 (ex. computer vision, speech recognition, natural language processing, ...)
  • Question: 어떻게 Human reasoning의 유연성과 generality를 수행하는 학습 기반 시스템을 만들까?
    • 이를 수행하지 못하는 것은 “missing ingredient”가 있기 때문?
  • 이 질문은 어려운 질문이지만 최근의 인공지능의 발전이 우리에게 몇가지 guiding principle을 제공
    • Lesson 1
      • 대량의 학습 데이터를 사용한 크고 generic한 모델의 “unreasonable” 효율성
      • 효율적으로 많은 연산과 많은 양의 데이터를 활용하는 모델이 manual engineered나 heuristic에 의존하는 기법들의 성능을 종종 뛰어넘음
    • Lesson 2
      • Manual labeling이나 supervision은 unsupervised나 self-supervised learning 만큼 scale될 수 없음
      • 이미 NLP에서는 unsupervised pre-traning을 하는 것이 표준처럼 되어있고 이는 곧 다른 분야에서도 표준처럼 사용될 것
      • 또 이 lesson은 첫번째 lesson과도 연결될 수 있음 → 큰 모델과 큰 데이터셋이 가장 효율적이면 이런 큰 데이터셋과 모델을 만드는데 bottleneck이 되는것은 무엇일까?
        • Human supervision이 이런 bottleneck의 하나가 될 수 있음 → 모든 데이터가 사람에 의해 수동으로 labeled되는 경우 시스템에 학습에 사용하는 데이터가 적어질 수 밖에 없음
      • human label 없이 학습하는 최근의 기법들은 종종 첫 번째 lesson에서 설명된 원칙을 위반하므로 대규모 모델이 label이 지정되지 않은 데이터셋에서 의미 있는 knowledge를 얻을 수 있도록 하는 self supervised learning objectives를 설계하려면 상당한 human insight 필요
      • 다음에 우리가 직면할 수 있는 bottleneck은 어떻게 manual labeling이나 self-supervised objectives의 manual design 없이 큰 모델을 학습시킬 수 있는지 결정하는 것 → world에 대한 딥고 의미있는 이해를 하고 robustness generalizatino와 common sense를 가지며 downstream task를 수행하는 모델을 얻는 것
  • 이런 기법들은 현재의 learning 기반 제어 (reinforcement learning)을 통해 발전할 수 있음
  • 환경을 다양하고 goal-directed 방향으로 제어하기 위해서 autonomous 에이전트는 환경에 대해 caual하고 generalizable하게 이해해야 함 → 현재 supervised 기반 모델의 많은 단점을 극복
  • 현재의 RL 기법에 요구되는 두가지 중요한 사항
    • RL 알고리즘은 user에 의해 직접 결정된 task goal (i.e. reward function)을 요구하고 이 task goal을 달성하도록 행동을 학습 → 이것은 human supervision 없이 학습하는 능력에 큰 제한이 됨
    • 현재의 RL은 일반적으로 data-driven이 아니고 online experience를 통해 학습을 진행 → online active data collection은 generalization을 제한 → 이에 따라 RL은 simulation을 통해 주로 사용

2. Learning Through Action

  • 지금까지의 내용으로 살펴보았을 때 AI system은 유용함! → inference를 제공하여 결정을 수행 → world에 어떤 영향을 줌
  • 원하는 결과를 만들어내는 결정을 내리는 것이 강화학습과 제어의 범위 → 어떻게 강화학습이 high capacity model을 위한 automated and principled objectives를 제공하는지 알아야 함 → understand, reason and generalize 능력을 포함
  • 하지만 이는 두가지 한계를 해결하는 것을 요구
    • RL은 수동적으로 정의된 보상 함수를 요구
    • active learning을 수행하여 크고 다양한 데이터를 통해 학습하기 어려움
  • 해당 문제를 objective로 해결하는 방법
    • world에서 발생할 수 있는 모든 결과들을 추론하는 것을 목적으로 하는 것이 아니라 single user-specified task를 수행하는 것을 목적으로 하도록 알고리즘을 발전해야함
    • 이런 기법을 위한 potential objectives는 어떤 feasible state에 도달하도록 학습하는 것을 포함 → latent goal과 outcomes 사이의 mutual information을 최대화 하도록 학습하거나 principled intrinsic motivation objectives를 통해 더 넓은 범위의 가능한 결과들로 이끔
  • 해당 문제를 data로 해결하는 방법
    • RL 알고리즘이 미리 수집된 데이터셋을 효율적으로 사용하도록 발전시켜야함
    • 이런 offline RL 알고리즘은 supervised learning과 동일한 형태로 넒고 다양한 데이터셋을 RL system에 사용하는 학습 방법을 제공
  • Offline RL이 중요한 이유
    • since an offline algorithm would be comparatively indifferent to the source of the experience, the fraction of time that the robot spends accomplishing user-specified objectives versus “playing” could be adjusted to either exterme, and even a system that spends all of its time performing user-specified tasks can still use all of its collected experience as offline training data for learning to achieve any outcome.
    • 이런 시스템은 여전히 환경과 “play”하지만 오직 가상으로, 이것의 “memory”에서 수행
  • action의 notion이 잘 정의된 환경은 이런 방법으로 학습하는 것이 가능
    • ex. recommender system, autonomous vehicles, systems for inventory management and logistics, dialogue system, ...
  • 이런 환경들에서는 online exploration이 가능하지 않을 수 있지만 offline RL을 통한 unsupervised outcome-driven objectives의 학습은 여전히 가능함

3. Unsupervised and Self-Supervised Reinforcement Learning

  • Unsupervised 혹은 self-supervised RL 기법은 2가지 기준을 만족해야함
    • 행동을 학습하여 world를 의미있는 (meaningful) 방법으로 제어해야함
    • 가능한 다양한 방법으로 학습할 수 있는 몇가지 mechanism을 제공해야함
  • 여기서 meaningful이라는 말을 잘 고려해야함
    • 이는 exploration problem과 밀접하게 관련됨
    • exploration은 넒은 범위를 커버하는 문제, task objective가 없기 때문에 일반적으로 world를 의미있게 control하는 방법을 학습하는 것을 고려하지 않음
    • exploration 기법은 데이터를 수집하는 역할을 수행 → 데이터를 사용하지 않음
  • Self-supervised RL objective을 formulate하는 가장 직접적인 방법은 goal state로 도달하는 문제로 정의하는 것
    • 이 문제는 reward function $r(s,g)$를 통해 goal-conditioned policy $\pi(a|s,g)$를 학습하는 것
  • 모든 골에 도달하도록 학습된 policy가 어떻게 world를 학습할까?
    • 이런 goal-conditioned RL 문제를 푸는 것은 dynamics model을 학습하는 것과 연관이 있음
    • 직관적으로 potential desired outcome을 도출할 수 있는 것은 긴 horizon 동안 어떻게 행동이 환경에 영향을 미칠 것인가를 깊이 이해하는 것을 요구함
  • Model-based RL과 goal-conditioned RL의 차이
    • 여기서 드는 의문! 왜 직접적으로 model-based RL에서 공통적으로 사용하는 것 처럼 dynamics model만 학습하지 않음?
    • Model 학습은 specific used-provided objective 없이 다양한 데이터셋을 사용하는 효과적인 방법
    • Model-based RL은 모델의 objective가 desired outcome을 실제적으로 도출하는 것과는 매우 disconnected → goal-conditioned RL objective는 long-horizon outcome과 매우 직접적으로 연관됨
    • ML 시스템의 최종 목표는 desired outcome을 도출하는 것 → goal-conditioned RL의 objective → well-aligned
  • 하지만 현재의 접근법은 몇몇의 큰 한계점을 가짐
    • 표준 goal conditioned RL조차도 사용하기 어렵고 unstable
    • goal-reaching은 Rl에서 정의할 수 있는 모든 가능한 방법의 set으로 확장하지 않음
    • 에이전트가 주어진 환경에서 가능한 모든 결과를 성공적으로 달성하는 방법을 학습하더라도 abitrary user-specified reward function을 최대화하는 단일 desired outcome이 없을 수 있음 (?)

4. Offline Reinforcement Learning

  • 이전에 논의한대로 offline RL은 online collection이 불가능한 세팅에서 self-supervise 나 unsupervised RL 기법의 적용을 가능하게 함 → 이 기법은 self-supervised RL에 크고 다양한 데이터셋을 결합하기 위한 강력한 도구!
  • Offline RL이 가지는 challenge
    • offline RL은 counterfactual question에 대한 답을 요구함 → 하나의 결과를 보이는 주어진 데이터가 있을 때 우리가 다른 행동을 취하면 어떤 일이 생길지 예측할 수 있는가? → 이것은 일반적으로 매우 어려움!
  • Offline RL의 발전
    • offline RL은 최근 몇년 동안 큰 발전을 달성
    • 어떻게 distributional shift가 offline RL에 영향을 미치는지 이해 → offline RL 알고리즘의 성능이 대폭 발전함
    • robustness gurantees, finetune online after offline pretraining 등 offline RL 세팅의 다른 문제들을 해결하는 새로운 알고리즘들이 개발되고 있음
  • Offline RL의 발전은 self-supervised RL 기법의 적용성을 대폭 향상시킬 수 있는 potential을 가짐
    • Offline RL을 사용하면 어떤 exploration도 요구하지 않은 self-supervised RL 기법을 구성할 수 있음
    • Section 2에서 이야기한 “virtual play”와 같이 offline RL을 사용하면 goal-conditioned policy를 이전에 수집된 데이터를 통해서만 학습이 가능
  • 하지만 주요한 challenge가 남아있음
    • Offline RL 알고리즘은 표준 강화학습 기법들이 가지는 많은 어려움들을 포함하고 있음 (ex. 하이퍼 파라미터에 대한 민감성)
    • 지도학습의 경우 이런 문제를 validation set으로 다룰 수 있지만 offline RL은 불가능
    • 우리는 더욱 안정적이고 reliable하며 평가를 위한 효율적인 알고리즘이 필요

5. Concluding Remarks

  • 어떻게 self-supervised RL이 offline RL과 결합되어 scable representation learning이 가능한지 설명
  • Motivation
    • 학습된 모델은 useful → world에서 desired outcome을 불러오는 결정을 수행
    • Therefore, self-supervised traning with the goal of bringing about any possible outcome should provide such models with the requisite understanding of how the world works
  • Self-supervised RL objectives (such as those in goal-conditioned RL)는 모델학습과 밀접한 관계를 가짐 → 이런 objectives를 달성하려면 정책이 환경에 대한 functional and causual understanding을 얻을 수 있어야 함
  • 그러나 이런 기법들이 유용하기 위해서는 이를 real world dataset에까지 scale할 수 있어야함
  • Offline RL은 이런 역할을 할 수 있음 → 왜냐하면 이는 크고 다양한, 기존에 수집된 데이터 셋을 이용할 수 있음 → 이런 조각들을 모으면 action을 통해 world를 이해하는 새로운 class의 알고리즘으로 이끌 수 있음 → 실제로 scalable하고 automated된 기법으로 이끌 수 있음