'IT/강화학습' 카테고리의 글 목록 (2 Page)

Monte Carlo methods

Prediction Task and Control Task • Prediction Task – With policy given, we try to predict the value function or Q function using the policy. – Why? because we want to evaluate the policy. – What is a good policy? One that gets a good return for the agent. – How can we get the return? From the Q function – Thus, by predicting a Q function, we predict the (expected) return, and that will evaluate ..

IT/강화학습 2022.10.11

Bellman equation 정리

1. bellman equation Bellman Equation - V에 대하여 >> 그 state에서 어떤 action을 취했을 때의 reward와 그 다음 state에서의 가치의 합이다. [Stochastic environments] stochastic한 환경에서 다음단계로 이동할 때 위의식을 일반화하면 여기에서 우변을 bellman backup이라고 함 [Stochastic environments] stochastic한 policy로 다음단계로 이동할 때 **pi 는 policy라는 뜻임 더 간단히 아래와 같이 표현할 수 있음 Bellman Equation - Q에 대하여 [Stochastic environments] stochastic한 환경에서 다음단계로 이동할 때 [Stochastic env..

IT/강화학습 2022.09.27

Frozen Lake 구동해보기

강화학습의 간단한 실습인 Frozen Lake를 구동해보겠습니다. 우선 import로 gym을 불러옵니다. 1 2 3 import gym env=gym.make(“FrozenLake-v1”, new_step_api=True, render_mode=”human”, is_slippery=False) Colored by Color Scripter cs new_step_api 새로운 버전을 쓸지에 대한 여부 render_mode = “human” : graphical하게 볼수 있는 옵션 (ansi도 있음) is_slippery=False: FrozenLake의 미끄러운 version으로 사용여부 위와 같이 환경을 구성했으면 아래 reset에 대한 state도 설정해줍니다. 1 state=env.reset() c..

IT/강화학습 2022.09.17

강화학습 소개

강화학습이란: Agent가 특정 environment에서 reward를 많이 쌓을 수 있는 방향으로 action을 취하는 것 (방법을 알려주는 것은 강화학습이 아님) → 방법을 알려주지 않으므로 초기에 불필요한 학습 과정이 많아짐 → 우연에 의해서 random action을 취하게 되고 그 때 reward를 얻게됨 강화학습이 잘 적용되는 분야 반복적으로 작업할 수 있는 것들 - 바둑 - 자율주행 (강화학습 뿐만 아니라, 세팅값들에의해서 같이 조절됨) 너무 가까워 지면 멈추라는 세팅값들이 존재함 강화학습이 잘 적용되지 않는 분야 변동성이 많은 것 - 주식 - 로또번호 예측 강화학습 알고리즘 Basic 1) The agent interacts with the environment by performing a..

IT/강화학습 2022.09.13

sarah0518

IT/강화학습 12

티스토리툴바