'policy gradient' 태그의 글 목록

Policy Gradient Methods

1. Value-based RL 정의: 높은 Q값에 근거하여 value를 선택하는 것 단점: continuous-action space한 환경에서는 바로 적용되기 어려움 eg1) 스피드를 150이상으로 선택하겠다. eg2) 각도를 10도 변경하겠다. 해결책: discretization (별로 효과적이지 않음) 2. Policy-based RL: policy gradient DQN input: state output: Q-value Policy gradient input: state output: action을 취할 probability → stochatic policy와 유사함 (policy-based method에서는 stochatic policy를 사용) → ㅠ(a|s)로 표현 • If we get ..

IT/강화학습 2022.11.15

sarah0518

policy gradient 1

티스토리툴바