본문 바로 가기

[ 테크 ]

사전 없이 번역도 독학하는 인공지능

byIT NEWS

사전 없이 번역도 독학하는 인공지능

인간의 뇌에서 영감을 얻은 컴퓨터 알고리즘인 신경망(Neural Network) 덕분에 언어의 자동번역은 장족의 발전을 했다. 그러나 신경망을 학습하려면 엄청난 양의 데이터가 필요하다. 즉, 한 사람이 언어를 번역하는 과정을 배우려면 수백만 개의 문장대문장 번역(sentence-by-sentence translation) 사례가 필요한 것처럼 말이다.

 

그런데 인공지능(AI) 신경망이 병렬말뭉치들(Parallel Texts) 없이도 번역을 학습할 수 있다"고 밝힌 논문이 두 편 발표됐다. 이는 인간이 개입해 학습시키지 않아도 스스로 2개 국어를 능수능란하게 구사하는 '바이링구얼(bilingual)'이 될 수 있다는 뜻이다.

 

이번 논문은 다양한 언어로 작성된 문서들에 대한 접근성을 향상시킬 수 있는 기술의 놀라운 진보라고 할 수 있다.

 

이러한 '비지도(Unsupervised) 머신러닝' 기법의 논문 두 편은 미켈 아르테체(Mikel Artetxe) 스페인 바스크대학교(UPV) 컴퓨터공학 박사(제1저자)와 조경현 뉴욕대 교수, 고르카 라바카(Gorka Labaka), 에네코 아기레(Eneko Agirre) 팀이 발표한 UPV 시스템(논문명: Unsupervised Neural Machine Translation)과, 또 하나는 페이스북에 근무하는 기욤 램플(Guillaume Lample) 컴퓨터공학 박사와 Ludovic Denoyer, Marc'Aurelio Ranzato팀이 발표한 (논문명: Unsupervised Machine Translation Using Monolingual Corpora Only)이다.

 

미켈 아르테체 박사는 "한 사람에게 중국어책과 아랍어책 각각 여러 권씩 주고, 중국어를 아랍어로 번역하는 방법을 스스로 배울 것을 요구한다고 상상해 보자. 단, 그중에서 내용이 겹치는 책은 하나도 없다고 하자. 그건 당연히 불가능해 보인다"며, "그러나 우리는 컴퓨터가 그 일을 해낼 수 있음을 증명했다"고 말했다.

 

대부분의 머신러닝인 신경망 컴퓨터 알고리즘이 학습하는 과정은 일종의 '감독' 내지 '지도'를 받는다. 즉, 컴퓨터는 하나의 추측을 한 후에 정답을 제시하고, 틀리고 맞음에 따라 자신의 번역방법을 바로잡거나 강화하게 된다. 예컨대 영어와 불어를 양방향으로 번역할 경우, 이런 방법은 잘 작동한다. 왜냐하면 양쪽 언어로 작성된 문서들이 많이 존재하기 때문이다. 하지만 데이터가 많지 않은 희귀한 언어의 경우에는 번역이 힘들다. 설사 많이 사용되는 언어일지라도 병렬말뭉치들이 존재하지 않는다면 사정은 마찬가지다.

 

이번에 발표된 두 편의 논문들은 내년에 열리는 ‘표현학습에 관한 국제 컨퍼런스’(International Conference on Learning Representation)에 제출된 것으로 아직 동료심사를 받지 않았는데, 공통점은 ‘비지도 머신러닝’(Unsupervised Machine learning)이라는 방법을 사용한다는 것이다.

 

비지도 머신러닝의 자율학습 방법은 다음과 같다, ▶ 먼저 인간의 도움 없이 ‘이중언어사전’(Bilingual Dictionary)을 구축한다. 이것이 가능한 이유는 '단어들끼리 무리를 이루는 방식'이 모든 언어에서 매우 비슷하기 때문이다. 예컨대 '책상'과 '의자'를 의미하는 단어들은 모든 언어에서 ‘바늘 가는 데 실 가듯’ 세트로 사용되는 경우가 많다. 따라서 컴퓨터가 이런 동시발생(co-occurrence)에 관한 지도를 작성한다면, 서로 다른 언어 지도들 또한 비슷할 것이다. 이를 ‘거대한 도로지도’라고 하는데 각 단어들을 도시의 이름이라고 하면, 도시의 이름들만 다를 뿐 두 지도는 동일하다고 볼 수 있다. ▶ 다음으로, 일단 두 장의 지도가 완성되면, 컴퓨터는 한 장의 지도를 다른 지도 위에 덮어씌우면 ‘이중언어사전’이 완성된다. 대단한 방법이다.

 

이번에 발표된 두 편의 논문에서, 연구진은 매우 비슷한 방법을 사용해 문장 수준의 번역 가능성을 보여줬다. 두 연구진 모두 두 가지 훈련방식을 사용했는데, 하나는 역번역(Back Translation)이고 다른 하나는 노이즈 제거(denoising)다. ▶ 먼저 역번역의 경우, A언어의 한 문장을 B언어로 대충 번역한 다음, 이렇게 만들어진 B언어의 문장을 A언어로 다시 번역한다. 만약 역번역한 결과가 오리지널과 비교해 다르다면, 다음번에는 원문에 좀 더 가깝게 번역할 수 있도록 방법을 바꾼다. ▶ 노이즈 제거의 경우 역번역과 비슷하지만(A → B → A), 번역한 문장에 노이즈(단어의 재배열 또는 제거)를 추가한 다음 원어로 재번역한다는 점이 다르다. 이처럼 역번역과 노이즈 제거라는 두 가지 전략을 병행하면, 신경망은 언어의 더 깊은 구조를 터득하게 가르칠 수 있다.

 

두 연구팀이 사용한 기법에는 약간 다른 점도 있다. UPV 시스템은 훈련 도중에 역번역을 좀 더 빈번하게 사용하는 데 반해, 페이스북 기욤 램플 박사팀이 개발한 시스템은 특별한 단계를 하나 더 추가했다. 두 시스템은 '한 언어의 문장을 추상성이 높은 표현으로 인코딩한 다음, 다른 언어로 디코딩한다'는 점에서 같다고 볼 수 있지만, 페이스북 시스템의 경우에는 중간언어(Intermediate Language)의 '진정한 추상성'을 검증하는 절차를 추가했다는 점이 다르다.

 

아르테체 박사와 램플 박사는 모두 마이크로소프트 베이징 지사의 디 헤(Di He) 박사 논문(논문명: Dual Learning for Machine Translation)에서 사용한 기법을 응용함으로써 자신의 결과를 향상시킬 수 있다고 말했다.

 

약 3천만 개의 문장으로 이루어진 동일한 모집단에서 수집한 영어와 불어 문장을 양방향으로 번역한 결과를 보면, 두 시스템의 결과를 간접적으로 비교할 수 있다.

 

두 시스템은 모두 기계 번역의 정확도를 평가하는 BLEU(Bilingual Evaluation Understudy) 평가에서 양방향으로 약 15점씩을 받았다. 이는 지도학습을 받는 구글번역(약 40점)이나 인간(50점 이상)에게는 크게 못 미치지만 단어만 직역(word-for-word translation) 했을 때 보다는 우수하다. 저자들은 시스템이 반지도(semisupervised) 학습 개념을 도입할 경우, 예컨대 학습단계에서 수 천 개의 병렬말뭉치들을 적용한다면 성능이 쉽게 향상될 수 있다고 말했다.

 

아르테체와 램플은 모두 "우리가 개발한 시스템을 이용하면 그다지 많은 병렬문장 없이도 언어간 번역이 가능하다. 특히, 신문보도와 같이 정형화된 문장의 경우 '영어 ↔ 불어'와 같은 흔한 양방향 번역에 큰 도움이 된다. 그러나 당신은 거리의 슬랭이나 의학용어와 같은 새로운 영역에 도전하고 싶어 할 것이다"라고 말했다.

 

그러나 아르테체와 공동저자인 에네코 아기레는 “비지도 머신러닝은 아직 걸음마 단계에 있다. 이제 새로운 길에 첫걸음을 내디뎠을 뿐이다”며, “우리가 어느 방향으로 갈지 우리도 잘 모른다"고 확대 해석을 경계했다.

 

두 논문 모두에 영향을 미친 디 헤 박사는 "컴퓨터가 인간의 지도를 받지 않고서도 번역을 배울 수 있다는 것은 충격이다"라고 말했다. 또한 아르테체는 “두 팀의 논문에 거의 동시에 arXiv에 올라왔고, 방법이 매우 비슷하다니 놀랍다”며, “그러나 어떻게 보면 그건 좋은 일이다. 그도 그럴 것이, 우리의 접근방법이 옳은 방향을 향하고 있음을 방증하기 때문이다"라고 말했다. 출처:

Science

 

생물학연구정보센터(BRIC)에 등재된 양병찬 번역가의 글을 다시 정리해 옮겨 싣는다. 양병찬 약사/과학 전문 번역가는 서울대학교 경영학과와 같은 대학원을 졸업한 후 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학을 공부했다. 현재 약국을 운영하며 의학, 약학, 생명과학 분야 등 과학 번역가로 활발하게 활동하고 있다. 또한 매주 포스텍(POSTECH) 생물학연구정보센터(BRIC)에 네이처(Nature)와 사이언스(Science)에 실리는 특집기사 중 엄선해 번역 소개한다. 최근 번역 출간한 책 '내 속엔 미생물이 너무도 많아'(2017.08.09), '핀치의 부리'(2017.03.08.), '자연의 발명'(2016.7.11.)을 비롯해 ‘나만의 유전자’, ‘영화는 우리를 어떻게 속이나’, ‘매혹하는 식물의 뇌’, ‘곤충 연대기’, ‘가장 섹시한 동물이 살아 남는다’, '센스 앤 넌센스', ‘비처방약품치료학’, ‘커뮤너티파마시’, ‘리더에게 결정은 운명이다’, ‘잇 앤 런’, ‘아트 오브 메이킹 머니’ 등 다양한 분야의 서적들을 번역 출간했다.

 

[김들풀 기자 itnews@itnews.or.kr]