논문 링크: https://arxiv.org/abs/2110.12543
0. Abstract
- 머신러닝 기법은 아주 크고 다양한 데이터셋을 통해 아주 크고 high capacity model로 학습을 수행하는 것이 가장 효율적
- 이에 따라 scale을 위한 bottleneck을 줄이는 방법을 찾기 시작
- 이런 bottleneck 중 대표적인 것은 사람의 노력을 요구하는 것 → curating and labeling datasets
- 결과적으로 최근에 주목을 받고 있는 것은 대량의 데이터를 수집할 수 있는 unlabeled data를 사용하는 것
- 본 논문에서는 unlabeled data를 사용하기 위한 general, principled and powerful 프레임워크가 Reinforcement Learning을 통해 얻어질 수 있을 것이라 주장
- Offline RL의 경우 큰 데이터셋을 활용할 수 있음
- 본 논문의 discuss
- 어떻게 이런 과정이 potential downstream task와 밀접하게 연관이 있는지
- 어떻게 최근에 발전되어온 기존 기법들에 이를 적용할 수 있는지
1. Introduction
- Machine Learning의 경우 다양한 분야의 어려운 문제들을 잘 풀어왔음 (ex. computer vision, speech recognition, natural language processing, ...)
- Question: 어떻게 Human reasoning의 유연성과 generality를 수행하는 학습 기반 시스템을 만들까?
- 이를 수행하지 못하는 것은 “missing ingredient”가 있기 때문?
- 이 질문은 어려운 질문이지만 최근의 인공지능의 발전이 우리에게 몇가지 guiding principle을 제공
- Lesson 1
- 대량의 학습 데이터를 사용한 크고 generic한 모델의 “unreasonable” 효율성
- 효율적으로 많은 연산과 많은 양의 데이터를 활용하는 모델이 manual engineered나 heuristic에 의존하는 기법들의 성능을 종종 뛰어넘음
- Lesson 2
- Manual labeling이나 supervision은 unsupervised나 self-supervised learning 만큼 scale될 수 없음
- 이미 NLP에서는 unsupervised pre-traning을 하는 것이 표준처럼 되어있고 이는 곧 다른 분야에서도 표준처럼 사용될 것
- 또 이 lesson은 첫번째 lesson과도 연결될 수 있음 → 큰 모델과 큰 데이터셋이 가장 효율적이면 이런 큰 데이터셋과 모델을 만드는데 bottleneck이 되는것은 무엇일까?
- Human supervision이 이런 bottleneck의 하나가 될 수 있음 → 모든 데이터가 사람에 의해 수동으로 labeled되는 경우 시스템에 학습에 사용하는 데이터가 적어질 수 밖에 없음
- human label 없이 학습하는 최근의 기법들은 종종 첫 번째 lesson에서 설명된 원칙을 위반하므로 대규모 모델이 label이 지정되지 않은 데이터셋에서 의미 있는 knowledge를 얻을 수 있도록 하는 self supervised learning objectives를 설계하려면 상당한 human insight 필요
- 다음에 우리가 직면할 수 있는 bottleneck은 어떻게 manual labeling이나 self-supervised objectives의 manual design 없이 큰 모델을 학습시킬 수 있는지 결정하는 것 → world에 대한 딥고 의미있는 이해를 하고 robustness generalizatino와 common sense를 가지며 downstream task를 수행하는 모델을 얻는 것
- Lesson 1
- 이런 기법들은 현재의 learning 기반 제어 (reinforcement learning)을 통해 발전할 수 있음
- 환경을 다양하고 goal-directed 방향으로 제어하기 위해서 autonomous 에이전트는 환경에 대해 caual하고 generalizable하게 이해해야 함 → 현재 supervised 기반 모델의 많은 단점을 극복
- 현재의 RL 기법에 요구되는 두가지 중요한 사항
- RL 알고리즘은 user에 의해 직접 결정된 task goal (i.e. reward function)을 요구하고 이 task goal을 달성하도록 행동을 학습 → 이것은 human supervision 없이 학습하는 능력에 큰 제한이 됨
- 현재의 RL은 일반적으로 data-driven이 아니고 online experience를 통해 학습을 진행 → online active data collection은 generalization을 제한 → 이에 따라 RL은 simulation을 통해 주로 사용
2. Learning Through Action
- 지금까지의 내용으로 살펴보았을 때 AI system은 유용함! → inference를 제공하여 결정을 수행 → world에 어떤 영향을 줌
- 원하는 결과를 만들어내는 결정을 내리는 것이 강화학습과 제어의 범위 → 어떻게 강화학습이 high capacity model을 위한 automated and principled objectives를 제공하는지 알아야 함 → understand, reason and generalize 능력을 포함
- 하지만 이는 두가지 한계를 해결하는 것을 요구
- RL은 수동적으로 정의된 보상 함수를 요구
- active learning을 수행하여 크고 다양한 데이터를 통해 학습하기 어려움
- 해당 문제를 objective로 해결하는 방법
- world에서 발생할 수 있는 모든 결과들을 추론하는 것을 목적으로 하는 것이 아니라 single user-specified task를 수행하는 것을 목적으로 하도록 알고리즘을 발전해야함
- 이런 기법을 위한 potential objectives는 어떤 feasible state에 도달하도록 학습하는 것을 포함 → latent goal과 outcomes 사이의 mutual information을 최대화 하도록 학습하거나 principled intrinsic motivation objectives를 통해 더 넓은 범위의 가능한 결과들로 이끔
- 해당 문제를 data로 해결하는 방법
- RL 알고리즘이 미리 수집된 데이터셋을 효율적으로 사용하도록 발전시켜야함
- 이런 offline RL 알고리즘은 supervised learning과 동일한 형태로 넒고 다양한 데이터셋을 RL system에 사용하는 학습 방법을 제공
- Offline RL이 중요한 이유
- since an offline algorithm would be comparatively indifferent to the source of the experience, the fraction of time that the robot spends accomplishing user-specified objectives versus “playing” could be adjusted to either exterme, and even a system that spends all of its time performing user-specified tasks can still use all of its collected experience as offline training data for learning to achieve any outcome.
- 이런 시스템은 여전히 환경과 “play”하지만 오직 가상으로, 이것의 “memory”에서 수행
- action의 notion이 잘 정의된 환경은 이런 방법으로 학습하는 것이 가능
- ex. recommender system, autonomous vehicles, systems for inventory management and logistics, dialogue system, ...
- 이런 환경들에서는 online exploration이 가능하지 않을 수 있지만 offline RL을 통한 unsupervised outcome-driven objectives의 학습은 여전히 가능함
3. Unsupervised and Self-Supervised Reinforcement Learning
- Unsupervised 혹은 self-supervised RL 기법은 2가지 기준을 만족해야함
- 행동을 학습하여 world를 의미있는 (meaningful) 방법으로 제어해야함
- 가능한 다양한 방법으로 학습할 수 있는 몇가지 mechanism을 제공해야함
- 여기서 meaningful이라는 말을 잘 고려해야함
- 이는 exploration problem과 밀접하게 관련됨
- exploration은 넒은 범위를 커버하는 문제, task objective가 없기 때문에 일반적으로 world를 의미있게 control하는 방법을 학습하는 것을 고려하지 않음
- exploration 기법은 데이터를 수집하는 역할을 수행 → 데이터를 사용하지 않음
- Self-supervised RL objective을 formulate하는 가장 직접적인 방법은 goal state로 도달하는 문제로 정의하는 것
- 이 문제는 reward function $r(s,g)$를 통해 goal-conditioned policy $\pi(a|s,g)$를 학습하는 것
- 모든 골에 도달하도록 학습된 policy가 어떻게 world를 학습할까?
- 이런 goal-conditioned RL 문제를 푸는 것은 dynamics model을 학습하는 것과 연관이 있음
- 직관적으로 potential desired outcome을 도출할 수 있는 것은 긴 horizon 동안 어떻게 행동이 환경에 영향을 미칠 것인가를 깊이 이해하는 것을 요구함
- Model-based RL과 goal-conditioned RL의 차이
- 여기서 드는 의문! 왜 직접적으로 model-based RL에서 공통적으로 사용하는 것 처럼 dynamics model만 학습하지 않음?
- Model 학습은 specific used-provided objective 없이 다양한 데이터셋을 사용하는 효과적인 방법
- Model-based RL은 모델의 objective가 desired outcome을 실제적으로 도출하는 것과는 매우 disconnected → goal-conditioned RL objective는 long-horizon outcome과 매우 직접적으로 연관됨
- ML 시스템의 최종 목표는 desired outcome을 도출하는 것 → goal-conditioned RL의 objective → well-aligned
- 하지만 현재의 접근법은 몇몇의 큰 한계점을 가짐
- 표준 goal conditioned RL조차도 사용하기 어렵고 unstable
- goal-reaching은 Rl에서 정의할 수 있는 모든 가능한 방법의 set으로 확장하지 않음
- 에이전트가 주어진 환경에서 가능한 모든 결과를 성공적으로 달성하는 방법을 학습하더라도 abitrary user-specified reward function을 최대화하는 단일 desired outcome이 없을 수 있음 (?)
4. Offline Reinforcement Learning
- 이전에 논의한대로 offline RL은 online collection이 불가능한 세팅에서 self-supervise 나 unsupervised RL 기법의 적용을 가능하게 함 → 이 기법은 self-supervised RL에 크고 다양한 데이터셋을 결합하기 위한 강력한 도구!
- Offline RL이 가지는 challenge
- offline RL은 counterfactual question에 대한 답을 요구함 → 하나의 결과를 보이는 주어진 데이터가 있을 때 우리가 다른 행동을 취하면 어떤 일이 생길지 예측할 수 있는가? → 이것은 일반적으로 매우 어려움!
- Offline RL의 발전
- offline RL은 최근 몇년 동안 큰 발전을 달성
- 어떻게 distributional shift가 offline RL에 영향을 미치는지 이해 → offline RL 알고리즘의 성능이 대폭 발전함
- robustness gurantees, finetune online after offline pretraining 등 offline RL 세팅의 다른 문제들을 해결하는 새로운 알고리즘들이 개발되고 있음
- Offline RL의 발전은 self-supervised RL 기법의 적용성을 대폭 향상시킬 수 있는 potential을 가짐
- Offline RL을 사용하면 어떤 exploration도 요구하지 않은 self-supervised RL 기법을 구성할 수 있음
- Section 2에서 이야기한 “virtual play”와 같이 offline RL을 사용하면 goal-conditioned policy를 이전에 수집된 데이터를 통해서만 학습이 가능
- 하지만 주요한 challenge가 남아있음
- Offline RL 알고리즘은 표준 강화학습 기법들이 가지는 많은 어려움들을 포함하고 있음 (ex. 하이퍼 파라미터에 대한 민감성)
- 지도학습의 경우 이런 문제를 validation set으로 다룰 수 있지만 offline RL은 불가능
- 우리는 더욱 안정적이고 reliable하며 평가를 위한 효율적인 알고리즘이 필요
5. Concluding Remarks
- 어떻게 self-supervised RL이 offline RL과 결합되어 scable representation learning이 가능한지 설명
- Motivation
- 학습된 모델은 useful → world에서 desired outcome을 불러오는 결정을 수행
- Therefore, self-supervised traning with the goal of bringing about any possible outcome should provide such models with the requisite understanding of how the world works
- Self-supervised RL objectives (such as those in goal-conditioned RL)는 모델학습과 밀접한 관계를 가짐 → 이런 objectives를 달성하려면 정책이 환경에 대한 functional and causual understanding을 얻을 수 있어야 함
- 그러나 이런 기법들이 유용하기 위해서는 이를 real world dataset에까지 scale할 수 있어야함
- Offline RL은 이런 역할을 할 수 있음 → 왜냐하면 이는 크고 다양한, 기존에 수집된 데이터 셋을 이용할 수 있음 → 이런 조각들을 모으면 action을 통해 world를 이해하는 새로운 class의 알고리즘으로 이끌 수 있음 → 실제로 scalable하고 automated된 기법으로 이끌 수 있음
'논문 리뷰 > Offline RL' 카테고리의 다른 글
Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (BEAR) (1) | 2024.11.27 |
---|---|
Batch Constrained Q-Learning (BCQ) (0) | 2024.11.26 |