본문 바로 가기

[ 테크 ]

픽셀버드와 구글 번역: 외국어도 컴퓨터 능력도 잡기(雜技)가 되는 날

by김국현

픽셀버드와 구글 번역: 외국어도 컴퓨

한국전쟁 직후였던 1954년 어느 날. 그날따라 뉴욕타임스 제1면은 흥미로웠다. 

 

“러시아어가 초고속 전자 번역기에 의해 영어로 둔갑!” 

 

미국 조지타운 대학과 IBM은 공동으로 기계번역의 공개 실험을 했는데, 아직 미소 냉전의 냉랭한 분위기가 서늘하게 뒤덮던 미국, 아직 컴퓨터조차 생소한 개념이던 시절. 번역하는 기계가, 그것도 적국의 낯선 언어를 순식간에 번역해 내는 기계가 대중에게 준 충격은 적지 않았다.

 

하지만 때는 메인프레임 컴퓨터의 태동기. 겨우 250개 단어와 6가지 문법만을 다룬 프로그램에, 문장도 펀치카드에 천공해 넣어야 입력이 되는 일종의 쇼케이스였다. 

 

상품도 심지어 프로토타입도 아닌, 그냥 이렇게 될 수도 있다는 데모 수준이었지만, 기계번역(MT·Machine Translation)에 대한 관심을 촉발해 다양한 후속 연구를 위한 관심과 자금을 순환하게 한 공은 컸다. 미국 정부도 연구예산을 적극적으로 편성하며 인공지능 황금기의 토양을 다져줬다. 

 

하지만 냉혹한 현실은 통제된 실험과는 너무나도 다르다는 사실을 깨닫는 데는 채 1년도 걸리지 않았다. 하지만 실망에서 벗어나는 데는 꽤 오랜 시간이 걸릴 수밖에 없었다. 

 

90년대 초, IBM의 통계적 기계 번역(STM, Statistic Machine Translation) 구상이 또 한 번의 희망을 줄 때까지 기나긴 세월이었다. 대개 희망은 상식의 전환과 함께 찾아온다. 언어란 어휘와 문법과 용례라는 룰(rule)의 축적이다. 그렇기에 언어 처리는 룰에 뛰어난 전산이 금방 해치울 것만 같은 느낌이 든다. 하지만 인간의 언어란 것이 그렇게 생각처럼 쉽지는 않았는지, 벽에 부딪히고 말았던 것. 하지만 통계 기반 시도가 보여준 여러 성과는 새로운 깨달음을 가져왔다. 

 

언어학적 식견을 가미하지 않고, 두 언어의 말뭉치(코퍼스·corpus, 언어 표본을 추출한 집합)를 병행으로 축적하는 것이 효과적이라는 것을 깨닫기 시작한 것이다. 

 

두 언어 대역(對譯) 데이터를 대량으로 축적하고 여기서 패턴을 추출하여 학습시킨다면, 데이터만 좋으면 상당히 균일한 퀄리티를 확보할 수 있게 된다. 특히 모든 룰을 준비해야 하므로 다국어 지원에 큰 제약이 있던 룰 기반의 고질적 단점마저 금방 해소되었다. 

 

그리고 또다시 세월은 흘러 그런 양질의 대량 대역 데이터를 세상 모든 언어에 대해 누구보다 많이 확보한 이가 전선(戰線)에 나섰다. 그 결과가 오늘날 구글이 보여주는 가공할 번역 능력이다. 

 

머신러닝 덕에 단어 하나하나의 의미 대역뿐만 아니라, 절이나 구와 같은 언어 특유의 형식미까지 포함한 문장 전체의 패턴을 숙지시킬 수 있게 된 지금, 구글은 번역계의 최강자로 등극한다. 그것도 구글이 서비스하는 모든 언어에서 동시 다발적으로. 

 

그리고 바로 10월 이 서비스를 웹이나 스마트폰 앱의 틀 너머로 밀어내기 시작했는데, 바로 귀에 꽂아 쓸 수 있는 픽셀 버드다. 애플 에어팟의 경쟁작이라기에는 양쪽이 이어져 있기에 내 에어팟을 대체할 것 같지는 않았지만, 이 제품의 본질은 그것이 아니었다. 비서가 귓속말을 해주는 듯한 통역 체험이었다. 그것도 무려 40개국어로. 

 

미래가 찾아온 것일까? 나는 보는 순간 "아, 해외여행에 정말 좋겠다."는 느낌이 먼저 들었다. 사실 역시 이런 류의 서비스는 내가 고객의 입장일 때 자유자재로 활용하게 된다. 기계가 만들어내는 어딘가 모를 어색함과 다소간의 굼뜸을 충분히 이해해 줄 아량이 있는 상황이란 바로 내가 갑일 때다. 

 

하지만 상대방의 눈높이에 서서 이야기해야 하는 을의 입장, 그러니까 나를 팔아야 하는 지원자의 입장, 내 물건을 팔아야 하는 판매자와 영업의 입장에서는, 만약 갑이 외국인이라면 내가 외국어를 해야 한다. 

 

번역은 여전히 문화적 맥락에 의존한다. 번역을 제2의 창작이라 일컫는 이유는, 화자가 속한 사회적 배경에 어울리는 말로 만들어줘야 듣는 이, 그러니까 최종 고객이 편해 한다는 뜻이고, 그렇기에 여전히 작업과 직업으로서의 통·번역은 자리를 잡고 있고 수요가 있다. 

 

하지만 장기적으로 볼 때는 다른 전망이 펼쳐진다. 기계 특유의 어색함과 굼뜸이 일상에서는 구분 못 할 정도로 개선되고 또 비용이 낮아져 모두가 쓸 수 있는 때가 온다면, 마치 비서 없는 모든 이들이 PDA를 거쳐 스마트폰을 비서인 양 마음껏 망상하며 들고 다니듯이, 통역사로 의인화된 서비스를 귀에 꽂고 다닐 수 있다. 그때는 컴퓨터도 스마트폰도 다룰 줄 몰라도 될 것이다. 말귀를 잘 알아들을 테니. 그렇기에 지금 벌어지고 있는 것은 외국어 통역도 할 줄 아는 개인 비서를 십몇만원에 구매할 수 있게 되는 그 날이 오기 시작한 사건일 수도 있다.

 

실은 컴퓨터도 외국어도 아주 대단한 사람들은 지금도 굳이 배울 필요가 없다. 비서진이 다 해주니까. 높은 사람에게는 그런 잡기(雜技) 따위 아무래도 좋다. 주위에서 알아서 다 해주니까.

 

어쨌거나 그렇게 모두가 제각각 비서진을 대동할 수 있는 시대가 온다면, 그 비서가 기계인지 사람인지에 따라 신분을 가늠할 수 있을 것이다. 직업인에게 또는 서민에게 그때가 디스토피아인지 유토피아인지는 잘 알 수 없지만.

 

하지만 그런 날이 와도 나는 구시대에 속한 서민답게 홀로 사전을 펼쳐 외국어를 공부할 것이다. 타자가 속한 사회적 배경을 이해하려는 노력, 그것이 바로 공부 아니었던가. 그렇다면 외국어는 훌륭한 공부일 터, 잡기에 능한 자유인이 되는 길을 가련다. 장자가 말했듯 무용(無用)한 것도 생존의 무기가 되는 법이다. 21세기에도 여전히.