AI_머신러닝_딥러닝

딥러닝 최신 용어정리 #5 스타크래프트2의 인공지능 알파스타

_랄프_ 2022. 9. 12. 22:25
728x90

Chapter 04 딥마인드의 알파스타

알파스타는 스타크래프트2의 인공지능 프로그램으로 알파고로 유명해진 구글 딥마인드에서 만들었다. 이는 최신 딥러닝 기술을 십분 활용한 결과물이다.

알파스타는 2019년에 공개되어 세계 정상급 프로게이머와의 대결에서 10승 1패를 거둠으로써 세간을 놀라게 했다.

알파스타는 이전의 알파고와는 매우 다른 형태의 인공지능으로 구현되어야 한다. 바둑은 경우의 수가 거의 무한대로 이를 어떻게 좁히느냐가 중요한 반면, 알파스타는 실시간 전략이 핵심이며 게임의 진행 상황에 따라 목표가 달라진다는 특징이 있다. 또한 정찰이라는 행위를 통해 상대의 정보를 얻고 이를 통해 자신의 전략을 고도화해야 한다. 이를 인공지능 용어로 Long-Term Planning 이라고 한다.

 

반응형

 


 

알파스타의 학습단계는 지도학습, 강화학습, 리그학습의 순으로 진행된다.

지도학습에서는 배틀넷에서 수집한 상위 22%의 실력자들 데이터 91만 7천 건을 활용한다. 지도학습의 목표는 다양한 전략을 학습하는 데에 있다.

강화학습에서는 지도학습의 결과물인 Agent로 자체 대결(Self-Play)을 펼치고, 여러 전략 중 적절한 전략을 선택하도록 학습하는 동시에 Agent가 가지고 있는 전략의 다양성을 유지한다.

리그학습은 강화학습과 유사하게 Agent 자체 대결 후 결과를 반영한 새로운 Agent를 생성한다. 서로 간에 대결을 하면서 Agent가 증가한다. 알파스타는 리그학습을 거쳐 배틀넷 기준 상위 0.2% 그랜드마스터에 등극했다.

 

 

728x90
반응형