1. bellman equation Bellman Equation - V에 대하여 >> 그 state에서 어떤 action을 취했을 때의 reward와 그 다음 state에서의 가치의 합이다. [Stochastic environments] stochastic한 환경에서 다음단계로 이동할 때 위의식을 일반화하면 여기에서 우변을 bellman backup이라고 함 [Stochastic environments] stochastic한 policy로 다음단계로 이동할 때 **pi 는 policy라는 뜻임 더 간단히 아래와 같이 표현할 수 있음 Bellman Equation - Q에 대하여 [Stochastic environments] stochastic한 환경에서 다음단계로 이동할 때 [Stochastic env..