let us not love with words or tongue but actions and truth.
728x90

IT 159

Proximal Policy Optimization (PPO)

Summary: 1. DQN: Q값 추정을 neural network로 2. Policy Gradient: Q값 추정 안하고 Policy 자체를 학습 3. A2C: Actor와 Critic을 분리하여 critic이 value값 추정 4. DDPG: Actor는 Critic에 완전히 의존. Critic이 action의 가치 추정 5. TD3: DDPG upgrade 6. SAC: Entropy가 높은 policy 우선 7. PPO: Trusted region 기반 policy update PPO의 motivation learning rate에 따라 결과가 많이 좌우됨 (sudden drop이 발생하는 원인) 해결책: trusted region내에서 움직이면 sudden drop을 피할 수 있음 truste..

IT/강화학습 2022.12.13

Spatial Keyword(SK) search query

SNS내의 데이터를 보면, 좌표 데이터(POI: Point of Interest)와 text 데이터가 같이 올라오는 경우가 많음 이런 데이터를 분석하기 위한 기법이라 할 수 있음 : (Geo-Textual) Data Geo-Textual Data의 components - text - location - time Boolean Range Query: keyword가 존재할 때 사용하는 range query 1. A query region: 범위에 대한 질의처리 2. A set of keywords: keyword를 포함하고 있는 object를 검색하는 질의처리 범위에 대한 질의 처리 후(빨간영역), keyword에 대한 질의처리(스마일표시)를 하는 그림 ** 키워드가 여러개일 때, 모두 포함되어야함 Top..

특징추출2 - PCA, LDA

주성분 분석 principal component analysis Karhunen-Loeve (KL) 변환 또는 Hotelling 변환이라고도 부름 정보 손실을 최소화하는 조건에서 차원 축소 저차원으로 투영한다는 것의 의미 저차원으로 투영한 뒤에, 원래 점들을 구별할 수 없으면 좋은 차원축소X (c)에서 가장 정보의 손실이 최소화되는 방향으로 저차원으로 축소한 것임 (c)가 변환된 공간에서의 분산이 가장 큼 정보손실 원래 훈련 집합이 가진 정보란 무엇일까?  샘플들 간의 거리 or 그들 간의 상대적인 위치 등  PCA는 샘플들이 원래 공간에 ‘퍼져있는 정도를’ 변환된 공간에서 얼마나 잘 유지하느냐를 척도로 삼음 → 이 척도는 변환된 공간에서 샘플들의 분산으로 측정함 → 목표: 변환된 샘플들의 분산을 최..

IT/패턴인식 2022.12.08

특징추출 - 퓨리에 변환

특징 생성의 절차 영역의 표현 모양에 관련한 특징 위의 특징추출 방법을 사용하여 아래와 같이 특정 모양의 특징을 추출할 수 있음 투영 특징 프로파일 특징 상/우/하/좌 프로파일로 표현할 수 있으며, 이웃한 세개의 평균을 구함으로써 smoothing 효과를 나타낼 수 있음 파형 신호에서 특징 추출 파형에서 어떻게 특징을 추출할 것인가?  파형은 기저 함수의 선형 결합으로 표현 가능  선형 결합의 계수를 특징으로 취함 이산 퓨리에 변환 퓨리에 변환 f(u)는 시간 공간을 주파수 공간으로 바꾸어 줌 위의 수식에 0~3까지의 값을 넣으면 아래와 같이 나타남 퓨리에 특징: 파워스펙트럼의 값을 특징으로 취함 빨간색은 실수부, 파란색은 허수부 파워스펙트럼에 따라 아래와 같은 4차원 특징 벡터를 얻게 됨 2차원 퓨..

IT/패턴인식 2022.12.07

Twin Delayed DDPG (TD3), Soft Actor-Critic (SAC)

Twin Delayed DDPG (TD3) TD3와 DDPG의 차이점 1. Clipped double Q learning 기존의 DDPG는 4개의 layer를 사용했다면, TD3는 main/target critic network를 하나씩 더 사용하여 총 6개를 사용함 2. Delayed policy updates the actor network parameter is delayed and updated only after two steps of the episode. Crtic을 많이 업데이트하고, actor를 중간중간 가끔식 update하자라는 뜻임 (최소 2번에 1번씩 actor를 update해주자) 3. Target policy smoothing target action에도 noise를 추가해주자...

IT/강화학습 2022.12.06

Multi-Armed Bandit (MAB)

가장 좋은 slot machine을 찾기위해 아래와 같은 프로세스를 따름 모든 slot machine을 실험해보고 그중에서 가장 max의 reward를 주는 slot machine을 찾음 이 실험을 위해 발생한 비용을 regret이라고 함 즉, regret = cost multi-armed bandit에서의 - action = slot machine arm의 개수 = number of bandit - observation space= 1 (왜냐 하면 slot machine을 땡기면 매번 똑같은 state로 돌아오기 때문에) - p_dist = 각 slot machine(기계)의 승률 - r_dist = reward distribution = (1, 1, 1) → 이기면 1, 아니면 0 multi-arme..

IT/강화학습 2022.12.04

순차데이터의 인식

시간성 특성이 없는 데이터 축을 바꿔도 문제의 본질이 바뀌지 않음 하지만 2를 그리는 순서를 바꾸면 2를 알아볼 수가 없음 1. 마코프 모델 (Markov Model) 시간 t에서의 관측은 가장 최근 r개 관측에만 의존한다는 가정 하의 확률 추론 2차 이상에서는 추정할 매개 변수가 많아 현실적인 문제 발생 주로 1차 마코프 체인만 사용 상태전이: state transition probability matrix 1. 상태전이 확률 행렬 2. 상태전이도 상태전이확률행렬은 아래와 같이 표현됨 1차 MM에서 관측벡터 O의 확률 구하기 예시1) 예시2) 0차에서의 MM 2차에서의 MM MM의 단점 1. 보다 복잡한 현상이나 과정에 대한 모델링 능력의 한계 해결책: 모델의 용량을 키우기 위해, 상태를 감추다. 2...

IT/패턴인식 2022.12.01

Continuous Nearest Neighbor(CNN)

CNN정의 CNN: Continuous에서 split points(s1, s2, s3)와 대응되는 NN을 찾는 것임 용어정리 1. split list: [s, s1, s2, s3, e] 2. vicinity circle: split point에 대응되는 원 3. cover: [a,c,f,h]들은 특정 구간에 있는 point u에 대해서 NN이기 때문에 특정 구간을 cover한다고 할 수 있음 CNN법칙 Lemma 1. - 점a가 추가 되었을 때, s까지의 거리와, e까지의 거리를 반지름으로 하는 원을 그림 - 점c가 추가되었을 때, 원e 안에 존재하므로 a와 c를 연결한 후, 수직인 선분을 그어 그점이 기존 s-e의 직선과 만나는 원의 중심인 s1이 됨 CNN 법칙 Lemma 2. Covering Con..

728x90