SARSA

기계 학습
데이터 마이닝
Scatterplot featuring a linear support vector machine's decision boundary (dashed line)
패러다임
문제
  • k-최근접 이웃 알고리즘
  • 국소 특이점 요인
인간 참여학습
모델 진단
  • 러닝 커브
이론
회의/저널
  • NeurIPS
  • ICML
  • ICLR
  • ML
  • JMLR
  • v
  • t
  • e

SARSA(State-action-reward-state-action)는 마르코프 결정 과정 정책을 학습하기 위한 알고리즘으로 기계 학습의 강화 학습 영역에서 사용된다. 이는 MCQ-L(Modified Connectionist Q-Learning)이라는 이름의 기술 노트에서 러머리(Rummery)와 니란잔(Niranjan)에 의해 제안되었다. 리치 서튼(Rich Sutton)이 제안한 대체 이름 SARSA는 각주로만 언급되었다.

이 이름은 Q-값을 업데이트하는 주요 기능이 에이전트 "S1"의 현재 상태, 에이전트가 "A1"을 선택하는 작업, 에이전트가 이 작업을 선택하여 얻는 보상 "R2", 에이전트가 해당 작업을 수행한 후 입력하는 "S2"를 지정하고 마지막으로 에이전트가 새 상태에서 선택하는 다음 작업 "A2"를 지정한다. 5중(St, At, Rt+1, St+1, At+1)의 약어는 SARSA이다. 일부 저자는 약간 다른 규칙을 사용하여 보상이 공식적으로 할당되는 시간 단계에 따라 5중(St, At, Rt, St+1, At+1)을 쓴다.

같이 보기