본문 바로가기

♪ 최신 과학기술 정보

[4차 산업혁명] 인공지능이란 AI란? (강화학습) - 3

[4차 산업혁명] 인공지능이란 AI란? (강화학습) - 3



안녕하세요. 오늘은 인공지능 강화학습에 대하여 공부해보고자 합니다.



강화학습 (Reinforcement Learning)


별도로 포스팅하는 이유가 뭘까요?? ㅎㅎ 중요하다고 생각했기 때문입니다.


전문가가 아닌 저로써는 어려운 개념이지만, 같이 공부하는 입장에서 정리한 내용 공유보려 합니다 ㅎㅎ


여러 자료들을 보면서 메모한 내용들을 풀어보도록 하겠습니다 ㅎㅎ





먼저, 강화학습은 머신러닝(Machine Learning)의 한 분야라고 생각하시면 됩니다.


행동심리학에서 영감을 받은 알고리즘이라고 합니다.


역시, 융합기술이 요즘 중요하다는 것을 보여주는 좋은 예라고 생각합니다.


머신러닝은 크게 3가지로 분류되고는 합니다.


1. 지도학습(Supervised Learning)

- 개발자가 학습과정을 입력해주어야하며, 입력과 정답을 알려주어 점점 개선하는 알고리즘


2. 비지도학습(Unsupervised Learning)

- 데이터만 입력하여 스스로 데이터를 가공하는 알고리즘

3. 강화학습(Reinforcement Learning) 

- 데이터를 주고, 주어진 환경에서 알고리즘은 행동을 취하게되고 그에 따르는 보상을 얻게 되면서 학습이 진행됩니다.

지속된 학습을 통하여 데이터를 수집하는 동적인 학습을 진행하게 됩니다.






선택가능한 행동들 중에서 보상이 가장 큰 행동 및 순서를 선택하는 알고리즘으로서 알파고(AlphaGO)의 핵심기술로 


소개되기도 하였습니다.


이 알고리즘은 기존의 딥러닝의 한계를 돌파하게 된 중요한 기술이라고 합니다.



딥러닝 설명에서 확인하셨겠지만, 강화학습 또한 학습 시작시점에는 정확도가 매우 낮지만,


주어진 환경내에서 보상값을 최고로 받을 수 있는 행동을 선택하면서 목적에 가까워져 갑니다.



이러한 학습방법 인간이 성장하면서 배워나가는 과정이랑 매우 흡사하다고 느껴집니다.



마르코프 의사결정 모델


다음 현상이 발생할 확률은 현재의 상태에만 의존한다는 조건을 가진 모델입니다.


실제로는 1차 마르코프모델을 의미하는 것이지요.. (2차 마르코프 모델도 있습니다만, 1차 모델로 가정한다고 합니다.)


그 이유는 단순 마르코프 모델이 아닌 HMM(Hidden Markov Model)을 사용하기 때문입니다.


자세한 내용을 정리하기에는 너무 어려워지니.. 단순화하기 위함이라고만 이해주시면 되겠습니다~!


마르코프 모델을 통하여 알고리즘이 선택과정을 거치게 됩니다.



Q- 함수


무작위 행동(Exploration)과 경험(Experience) 모델이라고 생각하면 됩니다.


사람이 새로운것을 배울때 처음하는 행동은 경험을 쌓기 위한 무작위 행동(Exploration)이라고 할 수 있으며


이 행도들에 대하여 주어진 환경모델은 보상을 주게 됩니다.


정답에 맞는 선택을 할 때 더 많은 보상을 주게되고 이것은 경험으로 남게 됩니다.


무작위행동(Exploration)과정에서는 행동을 선택함에 있어 제한을 두지 않지만, 경험(Experience)에 기반한 행동을 할때는


과거 정보를 활용하여 최적의 선택을 하는 알고리즘입니다.


즉, 학습이 진행되면서 점차 무작위행동은 감소시키면서 경험에 기반한 선택의 비중을 증가시키면서 학습을 하는것이


Q-Learning의 개념입니다.