Importance의 필요성에 대해 이 전 글에서 언급했던 내용을 다시 복습해보면 아래와 같다. off-policy의 단점: 한번 try했던 policy가 가장 best임에도 불구하고, random하게 생성된 policy로 진행이 되어 이전 best policy에 대한 가치를 제대로 반영 하지 못함 → randomly하게 선택했을 때의 distribution과(behavior policy) 목표하는 것의 distribution(target policy)이 일치 하지 못할 때 → 해결책: importance sampling을 사용하여 해결함 the importance sampling ratio The relative probability of the trajectory under the target and..