Summary: 1. DQN: Q값 추정을 neural network로 2. Policy Gradient: Q값 추정 안하고 Policy 자체를 학습 3. A2C: Actor와 Critic을 분리하여 critic이 value값 추정 4. DDPG: Actor는 Critic에 완전히 의존. Critic이 action의 가치 추정 5. TD3: DDPG upgrade 6. SAC: Entropy가 높은 policy 우선 7. PPO: Trusted region 기반 policy update PPO의 motivation learning rate에 따라 결과가 많이 좌우됨 (sudden drop이 발생하는 원인) 해결책: trusted region내에서 움직이면 sudden drop을 피할 수 있음 truste..