-
알파고(AlphaGo)인터넷시대와 4차산업 2023. 5. 2. 11:01반응형
알파고(영어: AlphaGo)는 구글의 딥마인드가 개발한 인공지능 바둑 프로그램이다.[1]
영국의 스타트업 기업이었던 딥마인드가 2014년 구글에 인수되면서 개발이 본격적으로 진행되었다. 2015~2017년 프로토타입 버전인 알파고 판, 알파고 리, 알파고 마스터가 공개되었고, 2017년 10월에 최종 버전인 알파고 제로를 발표하였다. 2018년 12월에는 바둑을 포함한 보드게임에 적용할 수 있는 범용 인공지능 알파 제로(Alpha Zero)를 발표하였다.
알파고는 2015년 10월 유럽 바둑 챔피언십 (EGC)에서 3차례 우승한 프랑스의 판 후이(Fan Hui, 樊麾) 2단과의 5번기에서 모두 승리해 핸디캡(접바둑) 없이 호선(맞바둑)으로 프로 바둑 기사를 이긴 최초의 컴퓨터 바둑 프로그램이 되었다.[2] 2016년 3월에는 여러 국제 기전에서 18차례 우승했던 세계 최상위급 프로 기사인 이세돌 9단과의 5번기 공개 대국에서 대부분의 예상을 깨고 4승 1패로 승리해 '현존 최고 인공지능'으로 등극하면서 세계를 놀라게 했다. 2017년 5월에는 당시 바둑 세계 랭킹 1위 프로 기사였던 커제(柯洁) 9단과의 3번기 공개 대국과 중국 대표 5인과의 상담기(相談棋, 단체전)에서도 모두 승리하며 '세계에서 가장 강력한 인공지능'임을 다시 한번 각인시켰다. 한국기원은 알파고가 정상의 프로기사 실력인 '입신'(入神)의 경지에 올랐다고 인정하여 '프로 명예 단증(9단)'을 수여하였고, 중국기원도 '프로기사 9단' 칭호를 부여했다.[3] 이 대국을 통해 인공지능의 새 장을 열었다는 평가를 받았으며, 바둑계는 기존의 통념을 깨뜨리는 창의적인 수와 대세관으로 수 천년 동안 이어진 패러다임이 바뀔 것으로 전망했다.
데미스 허사비스(Demis Hassabis) 최고경영자(CEO)는 2017년 5월에 열린 '바둑의 미래 서밋(Future of Go Summit)'이 알파고가 참가하는 마지막 대회가 될 것이며, 앞으로 인공지능은 인류가 새로운 지시영역을 개척하고 진리를 발견할 수 있도록 돕게 될 것이라고 말했다. 딥마인드는 질병진단 및 건강관리, 신약개발, 기후변화예측, 무인자율주행차, 스마트폰 개인비서 등 사회 전분야로 확대해 미래의 다양한 핵심 서비스 사업에 적용할 수 있는 범용 인공지능으로 개발한다는 계획이다.
알파고라는 이름은 구글의 지주회사 이름인 알파벳과 그리스 문자의 첫 번째 글자로 최고를 의미하는 '알파(α)', 바둑의 일본어 발음 '碁(ご)'에서 유래한 영어 단어 'Go'를 뜻한다.[4] 통산 전적은 73승 1패이다.
알파고 이전의 개발 역사와 대전
인간 대 바둑 프로그램
바둑은 체스와 같은 다른 종목에 비해 컴퓨터가 인간을 이기기 훨씬 어려운 것으로 여겨졌다. 체스 등보다 가능한 국면의 수가 훨씬 크기 때문에, 브루트 포스 등 전통적인 인공지능 기법 적용이 매우 곤란하기 때문이다.[2]
1997년 IBM의 컴퓨터 딥 블루가 세계 체스 챔피언 가리 카스파로프(Garry Kasparov)를 상대로 승리한 이후 20여년 동안 바둑 프로그램의 인공지능은 인간 아마추어 기사 5단의 수준까지 도달했지만,[5] 여전히 핸디캡 없이 프로 바둑 기사를 이길 수 없었다.[2][6][7] 2012년, 4대의 PC 클러스터로 운용되는 프로그램 젠(Zen)은 프로 기사 다케미야 마사키(武宮正樹) 9단과의 4점 접바둑으로 5전 2승을 거두었고, 프랑스에서 개발된 크레이지 스톤(Crazy Stone)은 2013년, 이시다 요시오(石田芳夫) 9단과의 4점 접바둑에서 이겼다.
알고리즘
인공지능의 학습에 있어 데이터와 연산능력 보다 중요시 되는 것이 알고리즘이다. 핵심은 무한대에 가까운 광범위한 경우의 수를 줄이는 것이다. 알파고는 훈련된 심층신경망(DNN, Deep Neural Network)이 몬테카를로 트리 탐색(MCTS, Monte Carlo Tree Search) 통해 선택지 중 가장 유리한 선택을 하도록 설계되었다. 심층신경망은 정책망(policy network)과 가치망(value network)의 결합에 의해 이루어진다. 정책망은 승리 가능성이 높은 다음 수를 예측하여 검색 범위를 좁히고, 가치망은 트리 탐색의 단계(depth)를 줄여 끝날 때까지 승률을 계산하여 승자를 추정한다.[2] 이를 실현하기 위한 기계학습은 여러 계층(layer)으로 디자인된 정책망을 구성하고, 정책망 지도학습, 정책망 강화학습, 가치망 강화학습 단계를 거친다.[5][8]
정책망 지도학습 (Supervised learning of policy networks)
KGS 바둑 서버에 등록된 16만 개의 기보를 회선신경망(CNN, Convolutional Neural Networks)으로 학습하고 3천 만개 이르는 착점 위치 정보와 패턴을 파악해 다음 수를 예측하여 인간의 바둑을 흉내내도록 훈련되었다. 훈련 결과 기존 44% 수준의 예측 확률이 57%까지 높아졌다.[9]
정책망 강화학습 (Reinforcement learning of policy networks)
기보에만 최적화 되는 한계를 극복하기 위해 반복적인 자가 대국으로 정책망의 성능을 개선한다. 무작위로 선정된 신경망 사이의 자가 대국을 통해 학습하며, 승리하면 보상을 받고(+1) 패하면 보상을 잃는(-1) 방식으로 진행한다. 이 과정을 거쳐 강화학습 이전의 정책망과 비교해 80% 더 많은 대국에서 이길 수 있게 되었다.
가치망 강화학습 (Reinforcement learning of value networks)
결과 예측을 강화하는 단계로 정책망의 자가 대국으로 확보된 기보를 바탕으로 승률을 파악하고 가중치를 부여해 다음 대국을 진행하는 방식으로 가치망의 분석 능력을 향상시킨다.
2016년 이세돌 9단과 대국한 알파고는 12개의 신경망 계층을 활용해 지도학습과 이를 통해 가장 합리적인 수를 도출하는 강화학습을 병행하였고, 2017년 커제 9단과 대국한 알파고 마스터는 신경망 계층을 40개로 늘려 지도학습 없이 강화학습만으로도 기력을 향상시킬 수 있도록 진화했다. 딥 블루는 특정 목적을 위해 만들어진 인공지능이라는 한계가 있었지만, 알파고의 알고리즘은 여러 분야에 범용으로 활용할 수 있다는 강점이 있다.
딥마인드는 2016년 영국의 국민건강보험공단(NHS)와 협약을 맺고 알파고의 인공지능 알고리즘을 활용한 딥마인드 헬스(DeepMind Health)를 개발하여, 환자 치료와 진단 속도를 단축하는 기술을 시험하고 있다. 실제로 병원 의료진들이 매일 2시간 정도 절약하는 효과가 있는 것으로 알려졌다.[10]
하드웨어
2015년의 알파고
알파고는 단일 컴퓨터로 구동되는 '단일 버전(Single version)'과 네트워크에 연결된 여러 대의 컴퓨터를 사용하는 '분산 버전(Distributed version)' 두 가지가 있다. 단일 버전의 알파고는 48개의 CPU와 4~8개의 GPU로 구동되며 '크레이지 스톤'과 '젠'을 포함한 다른 바둑 프로그램과 500번의 대국에서 1패만 기록하였다.[11][12] 분산 버전은 1,202~1,920개의 CPU와 176~280개의 GPU로 구성되어 있다.[5] 다양한 수의 CPU와 GPU에서 비동기 모드와 분산 모드로 테스트되었고. 한 수당 생각할 시간은 2초씩 배정되었다. 엘로 평점(ELO rating)은 아래와 같다.[5]
배열 및 성능
배열 검색 쓰레드 CPU 수 GPU 수 엘로 평점
비동기 40 48 1 2,151
비동기 40 48 2 2,738
비동기 40 48 4 2,850
비동기 40 48 8 2,890
분산 12 428 64 2,937
분산 24 764 112 3,079
분산 40 1,202 176 3,140
분산 64 1,920 280 3,168
알파고 판 (AlphaGo Fan)
176개의 GPU가 사용된 분산 버전이다. 2015년 판 후이 2단과 대국에서 승리하였다. 당시에는 '버전12'로 알려졌다.
알파고 리 (AlphaGo Lee)
48개의 TPU가 사용된 분산 버전이다. 2016년 3월 이세돌 9단과 대국에서 승리하였다.
대국 당시에는 알파고 판에서 기계학습이 개선된 수준의 '버전18'이라는 정도만 알려졌었다. 하지만 2016년 5월 구글 I/O(개발자회의) 2016 컨퍼런스에서 구글은 자체 개발한 애플리케이션 집적회로(ASIC)인 TPU(Tensor Processing Unit)를 처음 소개하면서 이세돌 9단과 대국한 알파고는 TPU가 사용되었다고 설명했다.
알파고 마스터 (AlphaGo Master)
4개의 TPU가 사용된 단일 버전이다. 2017년 초 프로 바둑기사와 온라인 대국에서 60연승을 하였고, 같은 해 5월 커제 9단과의 대결에서도 승리하였다.
2세대 TPU 모듈 1개가 탑재된 '1대의 TPU 머신'으로 구동되는 알파고 마스터는 커제 9단과 대국 이전이었던 2017년 5월 17일 구글 I/O 2017 컨퍼런스에서 공개되었다. 여기에 사용된 TPU 모듈은 연산성능 45TFLOPS(테라플룹스, 1초에 45조번의 연산처리)짜리 TPU 4개로 구성되어 180TFLOPS 성능을 내며, 1개의 모듈은 64기가바이트(GB) 메모리 대역폭을 지원한다. 구글은 TPU의 연산 성능은 당시의 최신 CPU보다 30~80배 높다고 설명하였다.
단일 버전인 알파고 마스터의 연산 능력은 분산 버전의 10% 수준이지만, 주 기능을 인공지능 연산과 예측에만 특화해 기계학습(machine learning) 알고리즘과 텐서플로(TensorFlow), 프레임워크(framework) 구동에 최적화되었다. 기존의 알파고가 학습한 내용을 토대로 추론했다면 알파고 마스터는 추론과 동시에 학습할 수 있고, 학습에 필요한 시간이 기존의 3분의1로 단축되었다. 또한 머신의 물리적인 부피가 줄어들면서 에너지 효율은 10배가량 향상되었다.[13]알파고 제로 (AlphaGo Zero)
4개의 TPU가 사용된 단일 버전으로 알파고의 최종 버전이다. 2017년 10월 19일 과학 학술지 네이처에 ‘인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)’라는 제목의 논문 발표를 통해 소개되었다.
알파고 제로는 인간의 기보에 의존하는 지도학습 없이 바둑 규칙만으로 스스로 학습하며 기력을 향상시킨다. 학습 36시간 만에 알파고 리의 수준을 능가하였고, 72시간 만에 알파고 리와 대국에서 100승 하는 동안 패하지 않았으며, 40일 후 알파고 마스터와 대국에서는 89승 11패를 기록하였다. 이 기간 동안 알파고 제로는 2900만 번의 자가 대국을 진행하며 학습하였다. 빅데이터 학습이 필요없는 인공지능의 등장은 바둑과 달리 빅데이터 확보가 어려워 인공지능을 활용하기 어려웠던 분야에 해결책을 제시했다는 점에서 의미가 있다.
알파 제로 (Alpha Zero)
하나의 알고리즘으로 바둑, 체스, 쇼기 등의 보드게임에 적용되는 범용 인공지능이다. 2018년 12월 7일 ‘자가학습을 통해 체스, 쇼기, 바둑을 마스터할 수 있는 범용 강화학습 알고리즘(A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play)’이라는 제목의 논문을 과학 학술지 사이언스에 발표했다.[14]
알파고 제로와 마찬가지로 빅데이터 학습이 필요 없을 뿐만 아니라, 점점 강해지는 자신과의 게임을 반복하면서 스스로 빅데이터를 구축한다. 2016년 쇼기 대회에서 우승한 AI '엘모(Elmo)'와의 대결에서 승률에서 앞서기까지 2시간, 2017년 체스 챔피언을 차지한 AI '스톡피시(Stockfish)‘는 4시간, 알파고 제로는 30시간이 걸렸다.[15] 데미스 허사비스 CEO는 “현실 세계의 문제를 푸는 인공지능을 만들고자 하는 딥마인드의 최종 목표에 다가서는 중요한 여정”이라고 밝혔다.반응형'인터넷시대와 4차산업' 카테고리의 다른 글
인공지능 기술의 실용적인 응용 (2) 2023.05.03 인공 신경망 (artificial neural network, ANN) (0) 2023.05.02 빅 데이터(Big Data)-1 (2) 2023.05.02 빅 데이터(Big Data) 플렛폼 (0) 2023.05.02 빅 데이터(Big Data) 정의 (0) 2023.05.02