요약 비동기식 deep RL gradient descent 방법론 제안. value-based, policy-based, on-policy, off-policy 구분없이 적용 가능. 가장 성능 좋은 것이 A2C+비동기식. multi-core CPU, multi-threads 사용하여 학습 가능. 학습속도 개선. on-line RL 의 문제점은, 데이터간의 상관성이 매우 높아서(현 state, action 으로 인해 다음 state가 결정되므로) 학습이 어렵다는 문제점이 있다. 이를 해결하기 위한 기존 접근이 Experience Replay. Experience Replay 는 agent의 경험을 모아놓고, 여기서 랜덤으로 샘플링하여 학습에 사용한다. 각 데이터간의 상관성이 줄어들고, 예전 경험을 사용할 ..