가장 좋은 slot machine을 찾기위해 아래와 같은 프로세스를 따름 모든 slot machine을 실험해보고 그중에서 가장 max의 reward를 주는 slot machine을 찾음 이 실험을 위해 발생한 비용을 regret이라고 함 즉, regret = cost multi-armed bandit에서의 - action = slot machine arm의 개수 = number of bandit - observation space= 1 (왜냐 하면 slot machine을 땡기면 매번 똑같은 state로 돌아오기 때문에) - p_dist = 각 slot machine(기계)의 승률 - r_dist = reward distribution = (1, 1, 1) → 이기면 1, 아니면 0 multi-arme..