상세 컨텐츠

본문 제목

인공지능과 강화학습

머신러닝

by miracleai 2024. 3. 14. 09:49

본문

반응형

인공지능과 강화학습

건강한 대한민국 남자라면 반드시 거쳐 가는 과정인 군대. 군 생활을 해 본 사람이라면 공감하겠지만, 군 생활을 가장 큰 보상은 포상 휴가일 것이다. 정기휴가는 규정에 의해서 모두에게  포상 휴가는 그렇지 않다. 훈련 성과가 좋거나 모범적인 일을 할 때 이에 따른 보상으로 받는 것이 포상 휴가다. 

이것은 비단 군대뿐만 아니라 일상생활에서도 적용된다. 경진대회를 하면 반드시 따라오는 것이 상과 상금이다. 이것은 내 노력에 대한 일종의 보상이다. 이처럼 우리 생활 속에서 보상이 주어지는 것은 일반적이다. 물론 그 반대도 있다. 규율을 어기면 제재를 받거나 벌을 받는 것이 그것이다. 축구경기에서 퇴장을 당하면 다음 경기에 나오지 못하는 것이 대표적이다. 이처럼 우리 생활에는 보상과 벌칙이 존재한다.

이렇게 보상이나 벌칙이 있는 것은 어떯게 보면 최상의 결과를 내기 위한 일종의 장치와도 같다. 이것은 우리 생활뿐만 아니라 인공지능에도 그대로 적용된다. 인공지능에는 ‘강화학습(Reinforcement Learning)’이라는 것이 있다. 

 

반응형

 

인공지능에서 강화학습은 환경과 상호작용하며 최적의 행동을 배우는 방법이다. 즉, 환경과 상호작용해서 최선의 결과를 도출하는 것이다. 강화학습은 에이전트가 환경으로부터 보상 또는 처벌을 받고, 이를 동해 어떤 행동이 최상의 결과를 가져오는지 학습하는 것이다. 그래서 강강화학습에 반드시 따라오는 것이 ‘시행착오’다.

인간도 최선의 결과를 도출할 때 많은 시행착오를 겪는다. 오죽하면 김연우의 노래 가사 중에 ‘수 많은 시련을 겪고, 수없이 눈물을 닦고, 드디어 맞이한 순간 모든 꿈은 이뤄진다’라는 구절이 있겠는가? 즉, 시행착오 없는 시련은 없다. 이런 인간의 사고와 행동을 그대로 모방하는 인공지능이라면 인간의 강화학습도 그대로 모방해야 되는 것이 어떻게 보면 당연한 것이다.

인공지능에서 강화학습은 AI는 자신의 행동에 따라 보상 또는 벌점을 받으며,보상을 최대화하거나 벌점을 최소화하는 방향으로 학습을 한다.보상과 벌점을 설정해두면 인공지능이 스스로 시행착오를 통해 잘할 수 있는 방법을 찾는다. 즉, 사람이 복잡한 규칙이나 가이드를 일일이 알려줄 필요 없다는 것이다, 

강화학습의 대표적인 것이 바로 다. 알파고는 이세돌 9단과의 5번의 대국 중 4번째 대결에서 졌다. 이 대국에서 알파고는 시행착오를 겼었고, 다음날 벌이진 5번째 대국에서는 이겼다. 알파고는 4번째 대국에서 싱착고을 겪고 이를 통해 이길 수 있는 방법을 찾았고, 그 뒤 인간과 했던 모든 대국에서 이겼던 것이다. 이처럼 인공지능에서 강화학습은 매우 중요한 부분이고, 반드시 들어가야 하는 부분이다.

반응형

관련글 더보기