Online 강화학습의 한계: 강화학습 (reinforcement learning; RL) 은 환경과의 상호작용을 통해 얻은 데이터로 부터 최적 제어 정책 (policy)를 학습하는 기법을 지칭한다. 이는 강력한 함수 근사기법 - 심층신경망 (deep neural networks; DNN) - 의 발전과 함께 사용되어 다양한 분야에서 초인간적인 제어 성능을 보이고 있다. (그림1) 강화학습은 제어정책의 학습을 위해 많은 양의 환경과의 상호작용을 요구함에 따라, 강화학습의 활용 및 성공은 대다수 환경과의 상호작용에 대한 비용이 적은 경우에 국한되어있는 추세이다. 이는 강화학습을 현실제어 문제에 적용하는데 어려움으로 작용한다. 더욱이, 현실의 시스템은 다양한 이유로 임의의 제어입력을 활용한 운영이 어렵게 된다. 예를 들어, 자율주행 자동차의 제어기를 학습할 때, 안전상의 이유로, 임의의 제어입력을 활용한 운전을 실험하기 어려움이 있다. 이에 따라, 현실적으로 적용가능한 최적 제어기를 학습하는 방식은 주어진 운영데이터 및 최소한의 환경과의 상호작용으로만 이루어지는 것이 타당하다.
Figure 1 Online, Offline 강화학습
Offline 강화학습의 대두: 앞서 논의된 online RL 한계 및 현실적인 제약 등으로 인해 기존의 online 강화학습 기법을 현실문제에 적용하는 데는 어려움이 있다. 이에 따라 online 강화학습이 상정한 상황 – 강화학습 기법이 환경과의 상호작용이 가능하다 - 과 다른 상황에 적용가능한 offline 강화학습 알고리즘들이 개발되었다. Offline 강화학습 (혹은Batch 강화학습) 은 앞선 강화학습의 성공사례와는 다르게 현재 주어진 운영데이터만으로 강화학습 기반의 제어기를 학습하는 것을 목표로 한다. Offline RL의 목표는 “offline으로 주어진 데이터만으로 그 데이터를 생성할 때 사용된 제어기 (행동 정책)의 성능에 준하는 그리고 더 나아가 그것을 상회하는 제어기를 학습하는 것” 이다. (그림2) Offline RL알고리즘은 모방학습 (Imitation learning) 혹은 행위복제 (Behavior cloning; BC) 과 같은 알고리즘과 비슷한 수준의 데이터 그리고 비슷한 목적을 지향하지만, 언급된 2가지 종류의 알고리즘과 다르게 offline 운영데이터를 생성한 제어기보다 더 좋은 성능을 보일 수 있음이 큰 차이이다 [1,2]. (그림2)
Figure 2 행위복제와 offline 강화학습
Offline 강화학습 알고리즘의 필요성: Online 강화학습을 디자인된 알고리즘 중 off policy 계열의 알고리즘은 “이론적”으로는 임의의 데이터셋으로부터 의미있는 제어정책을 학습하는 것이 가능하다. 하지만, 실제로 해당 off policy 알고리즘을 offline 환경에 적용했을 때, 일반적으로 제대로 학습이 불가한 사례들이 보고 되고 있다 [1,3]. 이는 online 강화학습이 암시적으로 가정하는 정책 학습에 사용되는 데이터가 어느 정도는 현재 정책 함수가 행동할 법한 영역에서 발생했다는 조건이 위배되기 때문인 것으로 받아들여지고 있다 [2].
Offline 강화학습의 난점: offline 강화학습은 주어진 데이터만으로 학습을 진행한다. 이는 강화학습 알고리즘이 주어진 정책함수를 개선하기 위해 주로 사용되는 탐험 (exploration)의 불능을 의미한다. online RL 은 일반적으로 환경과의 계속되는 상호작용 그리고 “탐험”을 활용해 (잠정적으로) 더 좋은 제어 성능을 낼 수 있는 정책을 학습하나, offline 강화학습의 경우는 탐험의 불능으로 해당 방식을 통한 정책개선이 어렵다. 이에 따라 offline 강화학습 알고리즘은 현재 주어진 데이터만을 활용해, 데이터가 주어지지 않은 영역에 대한 추론 – 외삽 (extrapolation) 혹은 반사실적(counterfactual) 추론 – 을 요구하게 된다 [1,2] (그림3). 하지만 직관적으로 그리고 또 수학적으로, 해당 외삽 문제를 해결하는 예측모델은 데이터가 주어진 영역에서 멀어질수록 그 예측 성능이 떨어지게 된다. 강화학습의 문맥에서 이 문제는 Extrapolation Error [1], Distributional shift [2] 이란 이름으로 연구되었다. 해당 문제는 offline 강화학습 알고리즘을 개발하는데 해결해야할 가장 근원적인 문제로 지목되고 있으며, 이에 따라 많은 Offline 강화학습 알고리즘은 강화학습 제어기를 offline 데이터를 생성한 제어기와 인접하게 학습하거나, 혹은 강화학습 제어기가 생성할 데이터 궤적이 offline 데이터의 궤적과 유사하게 하도록 하는 장치를 함으로써 앞선 문제를 최소화하는데 주안한다.
Figure 3 궤적 분포
이번 장에서는 다양한 model-free offline 강화학습 알고리즘에 대해 간략히 설명한다.