본문 바로 가기

[ 테크 ]

AI의 머신러닝, 알고보니 中·인도의 값싼 노동력 덕분

by조선비즈

AI가 쉽게 사물을 알아보도록 사진·동영상 속에 일일이 명칭 달아주는 '데이터 라벨링'

中, 인해전술로 가장 앞서나가…

인도·아프리카 등 외주 업체선 "시간당 임금 너무 낮다" 논란도

美, AI로 라벨링 자동화 구축 중


인공지능(AI) 기술이 다양한 산업으로 전방위 확산하면서, 데이터 라벨링(data labeling)이란 신종 비즈니스가 떠오르고 있다. 갓 태어난 어린아이처럼 아무런 지식이 없는 AI가 각종 사물을 인식(認識)할 수 있도록 AI에 입력되는 사진이나 동영상 등에 사람이 일일이 각종 사물의 이름을 달아주는 분류·표시 작업이다. 예컨대 거리 풍경이 찍힌 사진을 AI에 입력하기 전에 사진 속 사람과 자전거, 자동차, 건물 등의 이미지에 각각 표지를 달아주는 것이다. AI는 이러한 '라벨링'된 데이터를 대량으로 입력해 그 공통점을 파악하는 '머신 러닝'으로 사물을 지각하는 능력을 갖추게 된다.


데이터 라벨링 작업은 AI 산업의 기본이자, AI 산업이 획기적 발전을 이루려면 언젠가는 뛰어넘어야 할 걸림돌이다. 사람이 일일이 하다 보니 비용이 많이 들고 시간이 오래 걸려서다. 영국 경제지 파이낸셜타임스(FT)는 "자율주행차 알고리즘이 도로 표지판 등을 학습하려면 수천 시간 분량의 라벨링된 운전 동영상이 필요하다"며 "1시간짜리 동영상에 라벨링하는 데 8시간이 걸린다"고 했다. 통상 AI 학습 시간의 약 80~90%를 라벨링 작업이 차지하는 것으로 알려졌다.

저임금 노동자가 'AI 선생님'

데이터 라벨링은 기업 내부에서 직접 진행하기도 하지만, 최근에는 외주나 크라우드소싱(crowd sourcing·여럿의 손을 빌림) 등의 방식으로 이뤄지는 경우가 많다. 특히 많은 글로벌 IT 기업이 이 작업을 임금이 저렴한 제3세계 업체에 맡기는 것으로 알려졌다. 인도의 라벨링 회사 '아이메리트(iMerit)'는 직원 2500명이 사진 및 동영상을 분류한다. AI에 도로 차선 색깔을 구별하는 법을 가르치기 위해 사람이 사진이나 동영상의 차선에 '흰색' '노란색' 등의 태그(tag·표지)를 다는 식이다. 의료 진단 AI를 고도화(高度化)하기 위한 데이터는, 사람이 직접 내시경 동영상을 보면서 혹 같은 부분에 '종양' 등의 태그를 다는 일을 한다. 이 회사는 태그 하나당 수십원 수준의 비용을 받는 것으로 알려졌다. 또 다른 라벨링 업체 '사마소스(Samasource)'는 아프리카 케냐의 수도 나이로비, 우간다의 굴루 등에 센터를 두고 있다. 월마트, 구글, 마이크로소프트, 글라스도어 등 쟁쟁한 글로벌 IT(정보기술) 기업이 이 회사의 고객이다.

조선비즈

미국의 아마존웹서비스(AWS)는 AWS를 이용하는 다양한 고객을 위해 '아마존 메커니컬 터크(Amazon Mechanical Turk)'라는 라벨링 작업을 위한 크라우드소싱 플랫폼을 운영 중이다. 이 플랫폼에 업무를 맡기면, 여기 등록된 근로자가 지원해 일을 처리한다. 하지만 시간당 평균 임금이 2달러(약 2334원)에 불과하고, 시간당 7.25달러(약 8500원) 이상 소득을 올리는 비율도 4%에 불과한 것으로 알려져 논란이 일고 있다.

'인해전술'로 AI 기술 끌어올린 중국

현재 데이터 라벨링 산업에서 가장 앞서 나가는 나라는 중국이다. 방대한 인구가 뿜어내는 막대한 데이터, 허술한 개인 정보 보호 규제, 중국 정부의 AI 산업 지원에 풍부한 저임금 인력이 더해진 덕분이다.


중국의 데이터 라벨링 산업 전초기지는 베이징이나 선전 같은 IT 산업이 흥한 대도시가 아니라 농촌 지역이다. 임차료가 싼 농촌에 사무실을 차리고, 중국 제조업 둔화로 고용 사정이 악화하고 있는 농민공(농촌 출신 도시 근로자) 출신을 고용한다. 허난(河南)성에서 공장을 개조해 데이터 라벨링 공장을 운영하는 이야커씨는 "우리는 디지털 세계의 건설노동자"라고 말했다.


이미 중국은 2017년 컴퓨터 비전(computer vision·이미지로 포착한 정보를 컴퓨터로 처리하는 것) 분야에서 글로벌 시장의 3분의 1을 점유하면서 미국을 앞질렀다. 미국 뉴욕타임스는 "데이터 라벨링 능력은 미국이 따라갈 수 없는 중국의 AI 분야 경쟁력"이라고 평했다.

AI가 AI를 가르치는 시대로

하지만 자타공인 AI산업 최강자인 미국은 기술력으로 중국에 맞서고 있다. 데이터 라벨링을 자동화하는 AI 기술을 내놓고 있는 것이다. AWS는 지난해 12월 라벨링 작업을 자동화하는 '세이지메이커 그라운드 트루스'라는 서비스를 선보였다. 이를 이용하면 라벨링 비용을 70%까지 줄일 수 있는 것으로 알려졌다. 국내 기업 중에는 삼성SDS가 지난달 자체 개발한 'AI 개발 가속화 기술'을 소개하기도 했다. 시장 정보 조사 회사 커그니리티카(Cognilytica)는 이처럼 다양한 양태로 발전 중인 데이터 라벨링 시장이 2018년에 5억달러(약 5835억원)를 넘어섰고, 2023년에는 12억달러(약 1조4000억원)에 이를 것으로 전망하고 있다.


양모듬 기자(modyssey@chosun.com)