본문 바로 가기

[ 테크 ]

인공지능이 프로바둑기사를
쓰러뜨린 날

by테크홀릭

인공지능이 프로바둑기사를 쓰러뜨린 날

체스 챔피언을 컴퓨터가 이긴 적도 있지만 이제까지 최후의 보루처럼 남아 있던 바둑 세계에서도 프로 기사를 컴퓨터가 이기게 됐다. 구글이 개발한 인공지능 소프트웨어인 알파고(AlphaGo)가 그 주인공.

 

컴퓨터는 진화를 거듭해왔다. 1992년 보드 게임을 시작으로 1994년에는 오델로, 1997년에는 게리 카스파로프(Garry Kasparov)에 IBM의 딥블루가 승리를 거두면서 체스까지 공략하는 데 성공했다. 이어 장기를 공략한 컴퓨터에게 남은 최후의 보루는 바로 바둑이다. 체스는 다음 단계를 선택하기까지 평균 24개, 하지만 바둑은 200개 가까이 될 만큼 훨씬 복잡하다. 체스 같은 게임에선 돌마다 가치가 다르지만 바둑은 돌마다 같은 가치를 부여하는 탓에 논리적 판단이 훨씬 어렵다. 이런 이유로 바둑은 돌을 놓는 위치에 따라 체스보다 무려 10100 이상 많은 경우의 수가 존재한다. 구글의 표현을 빌리면 우주에 있는 원자의 수보다 많은 수준이다. 바둑이 난공불락으로 간주된 이유도 여기에 있다. 막대한 계산량을 처리하는 건 최신 컴퓨터라도 불가능하다고 보여질 정도였기 때문.

 

이런 불가능에 도전장을 던진 건 구글이다. 중국계로 유럽 바둑 챔피언을 3번이나 차지한 프로 기사 판 후이가 구글 인공지능연구소인 딥마인드(DeepMind)가 개발한 알파고와 대국을 진행했다. 알파고가 유럽 바둑 챔피언을 상대한 이유는 인공지능 기술 진화를 시험하기 위한 것이다. 결과는 놀랍게도 5번 대국 모두 알파고의 승리다. 인공지능 소프트웨어인 알파고의 연구 성과는 학술지 네이처에 논문이 1월 28일 게재되어 있는 상태다.

인공지능이 프로바둑기사를 쓰러뜨린 날

알파고와 유럽 바둑 챔피언 판후이의 기보

이렇게 놀라운 성취가 일어난 이유는 뭘까. 알파고는 검색 알고리즘으로 몬테카를로 트리탐색(Monte Carlo Tree Search)을 채택하고 여기에 심층신경망 기술을 접목했다. 다음 수를 읽어 승리 가능성이 있는 수를 고르는 정책망(Policy) 네트워크, 검색 트리를 통해 수의 위치를 평가하는 가치망(Value) 네트워크 2가지 평가를 이용해 최적의 수를 내는 하이브리드 방식 전략을 채택한 것.

 

IBM의 딥블루(Deep Blue)의 경우 체스 게임을 위해 게임 트리 탐색 알고리즘을 사용한다. 무작위 대입 방식(Brute Force)을 써서 쉽게 말해 모든 경우의 수를 입력해주고 인공지능은 엄청난 계산량 가운데 필요한 정보를 찾아야 한다. 체스에 대한 모든 정보를 사전에 때려 박아 놓고 이 중에서 필요한 걸 찾는다는 얘기다. 딥블루는 이 방식으로 세계 챔피언을 꺾었다. 8×8 판인 체스만 해도 경우의 수는 3580가지에 달한다. 문제는 19×19판인 바둑은 250150가지에 달하는 극악의 경우의 수를 필요로 한다는 것이다.

 

딥불루가 채택한 무작위 대입 방식의 또 다른 문제는 범용성이 없다는 것이다. 체스용이라면 말 그대로 체스에만 한정된다. 알파고의 가치를 찾을 수 있는 대목이 여기다. 알파고는 딥블루처럼 바둑 규칙 같은 걸 일일이 입력한 게 아니다.

앞서 설명했듯 알파고는 ‘몬테카를로 트리탐색+심층신경망’을 이용한다. 몬테카를로 트리탐색은 요즘 인공지능에 많이 쓰이는 것으로 게임 트리 탐색 알고리즘 같은 고전적인 방식에 시뮬레이션을 결합한 것이다. 예전 방식은 모든 경우의 수를 대상으로 삼지만 몬테카를로 트리탐색은 전체가 아닌 게임 시뮬레이션을 접목, 가능성이 높아 보이는 방향으로 행동을 결정할 수 있게 탐색해주는 것이다. 여기에 이런 결정을 돕는 정책망과 가치망을 곁들인 것.

 

또 일일이 정보를 다 입력하는 게 아니라 딥러닝 방식을 이용해 컴퓨터를 스스로 훈련시켜 학습하도록 했다. 이런 강화 학습을 통해 알파고는 시행착오 과정에서 새로운 전략을 인공지능 스스로 발굴하고 먼저 사전 예측을 할 수 있는 지능화 단계를 거치게 되는 것이다. 100만 건에 달하는 연습경기를 통해 알파고는 3,000만 개에 달하는 움직임을 신경망을 통해 자가 학습을 하고 스스로 승률을 높이는 방법을 배운다. 사람으로 따지면 그대로 대입할 수는 없지만 프로기사가 연간 1,000번씩 경기를 한다고 가정하면 1,000년에 달하는 경험을 바탕으로 하는 셈이다.

 

앞서 설명한 딥블루의 경우 체스에 대한 경우의 수는 물론 사전에 체스 챔피언의 관련 정보를 모두 입력해둔 것이다. 하지만 알파고에는 3월 대결을 펼칠 이세돌 9단처럼 특정 프로 기사에 대한 정보를 미리 입력하는 게 아니다. 알파고는 특정 선수 정보가 아닌 범용적 학습을 이용한다.

인공지능이 프로바둑기사를 쓰러뜨린 날

알파고의 가치가 바로 이것이다. 알파고는 딥러닝을 이용해서 인공지능 구성 방식을 놀라울 만큼 개선할 수 있다는 걸 보여준 것이다. 알파고는 이를 통해 기존에는 사람의 움직임을 예측할 수 있는 확률이 44%였지만 이를 57%까지 끌어올렸다. 기존 인공지능 바둑 관련 프로그램과의 대국에서도 500회 중 1번을 뺀 모든 대국에서 승리를 했다는 설명이다.

인공지능이 프로바둑기사를 쓰러뜨린 날

일일이 정보를 입력해야 하는 게 아닌 만큼 바둑 외에 다른 분야에도 모두 적용할 수 있다는 범용성을 확보한 건 물론이다. 실제로 구글 딥마인드 공동 창업자이자 CEO인 데미스 하사비스(Demis Hassabis)는 알파고의 가장 큰 가치로 범용성을 꼽고 기후 모델링이나 질환 분석 등 다양한 난제를 푸는 데 도움이 될 것으로 기대한다고 밝혔다. 예를 들어 CT 스캔이나 MRI 같은 의료 분야에서도 영상 처리 후 이상 여부를 확인하고 적절한 진단이나 치료 계획 같은 알고리즘에도 적용할 수 있다는 얘기다.

 

알파고는 이런 특징을 앞세워 기존에는 가능하면 수를 빠르게 검증하기 위한 연산 성능에 의존한 방식이었지만 여기에 딥러닝을 통해 컴퓨터를 학습시키는 기계학습 기술을 곁들여 지금까지 프로 바둑 기사를 이기려면 아직 10년은 더 걸린다는 평가를 뒤집었다. 구글 뿐 아니라 인공지능 연구에 주력하고 있는 페이스북 역시 바둑에 도전장을 낸 상태다. 딥러닝 기술 발전을 통해 컴퓨터가 앞으로 진화에 속도를 낼 것이라는 걸 보여주는 상징적 사건이라고 할 수 있는 것.

인공지능이 프로바둑기사를 쓰러뜨린 날

이번 대결로 알파고는 바둑계에서 처음으로 프로 기사를 이긴 세계 첫 컴퓨터 소프트웨어라는 칭호를 얻게 됐다. 하지만 알파고는 유럽 챔피언에 머물지 않고 세계 최고수인 이세돌 9단과 3월 대결을 펼칠 예정이다. 데미스 하사비스는 확률은 50:50이라고 말했지만 누가 이기든 승부와 관계없이 알파고는 인공지능 기술의 가능성과 성능을 보여준 상징적인 사건 가운데 하나가 될 건 분명하다. 관련 내용은 이곳에서 확인할 수 있다. 

 

이석원 기자