Twin Delayed DDPG (TD3) TD3와 DDPG의 차이점 1. Clipped double Q learning 기존의 DDPG는 4개의 layer를 사용했다면, TD3는 main/target critic network를 하나씩 더 사용하여 총 6개를 사용함 2. Delayed policy updates the actor network parameter is delayed and updated only after two steps of the episode. Crtic을 많이 업데이트하고, actor를 중간중간 가끔식 update하자라는 뜻임 (최소 2번에 1번씩 actor를 update해주자) 3. Target policy smoothing target action에도 noise를 추가해주자...