1. Value-based RL 정의: 높은 Q값에 근거하여 value를 선택하는 것 단점: continuous-action space한 환경에서는 바로 적용되기 어려움 eg1) 스피드를 150이상으로 선택하겠다. eg2) 각도를 10도 변경하겠다. 해결책: discretization (별로 효과적이지 않음) 2. Policy-based RL: policy gradient DQN input: state output: Q-value Policy gradient input: state output: action을 취할 probability → stochatic policy와 유사함 (policy-based method에서는 stochatic policy를 사용) → ㅠ(a|s)로 표현 • If we get ..