직접적으로 policy에 대해 critic하여 value-network의 가치를 상승시키는 목적으로 policy-based와 value-based를 합친것임 – The actor network • A policy network • Finds an optimal policy – The critic network • A value network (estimates state value) • Evaluates the policy produced by the actor network : 어떤 state의 가치를 판단해줌 Policy gradient에서의 value network와의 비교 - Policy gradient: value network의 목적은 state value를 사용하여 policy gradien..