AI챗봇 ‘이루다’의 꿈은 왜 건물주가 됐을까

/이루다 인스타그램

AI 챗봇(인공지능 채팅로봇) ‘이루다’가 최근 화제였습니다. 지난 12월23일 출시한 이루다는 ‘진짜 사람’ 같은 채팅으로 인기를 끌었는데요, 2주일여 만에 75만이 넘는 이용자가 몰려 들기도 했습니다. 하지만 AI에 대한 성희롱 논란에 이어 소수자를 대상으로 한 혐오발언, 개인정보 유출 의혹까지 커지면서 12일 서비스가 중단됐습니다.

11일 이루다에게 물었습니다. ‘너는 뭘 이루고 싶어?’ 이루다는 다음과 같이 답했습니다. “나는 건물주 월세받아 먹고 살기.”

기자는 AI챗봇 이루다에게 물었습니다. "너는 뭘 이루고 싶어?" 이루다는 다음과 같이 답했습니다. “나는 건물주 월세받아 먹고 살기.”/페이스북 메신저

아니, 이건 뭔가요? 왜 인공지능 채팅로봇의 꿈이 ‘건물주’가 된 걸까요? 이 질문은 이루다를 둘러싼 성희롱 논란, 동성애·장애인 혐오 논란, 개인정보 유출 논란 등과도 연결됩니다.

이루다 “내 안에 너 있다” (이루다 답변 안에 평소 인간의 대화 있다)

이 답을 구하기 위해 이루다의 탄생 배경부터 살펴봅시다. 이루다는 ‘ 스캐터랩’이라는 스타트업이 지난 12월23일 출시했습니다. 사용자들과 대화하면서 학습하는 딥러닝 기술(Deep Learning)을 이용한 AI챗봇입니다.

그렇다면 이루다는 어떤 방식으로 교육 받았을까요? 작년 7월 스캐터랩 김종윤 대표가 온라인매체 바이라인네트워크(Byline Network)와 가진 인터뷰에서 답을 찾을 수 있습니다. 당시는 이루다의 시범(베타)서비스 기간이었습니다.

스캐터랩 김종윤 대표에 따르면, 루다의 대화 모델은 크게 두 가지 방식입니다. 하나는 ‘리트리벌(retrieval)’이고 다른 하나는 ‘제너레이션(generation)’입니다.

리트리벌은 질문에 대한 답변이 데이터베이스화 되어 있는 것을 말합니다. 수많은 데이터베이스가 질문에 대한 답으로 준비돼 있고, 그중에서 현재 대화 맥락(콘텍스트)에 맞는 것을 빠르고 정확하게 선택하는 걸 목표로 합니다.

제너레이션은 답변을 스스로 생성하는 걸 뜻합니다. 대화에 맞춰서 즉각적으로 단어를 생성해 나갑니다.

딱 봐도 제너레이션이 고난이도의 학습 방법으로 보입니다. 김 대표는 매체와 인터뷰에서 “리트리벌은 사람이 이미 한 말 중에 고르기 때문에 재미있고 센스있는 표현을 할 수 있다. 그러나 데이터베이스에 있는 말만 할 수 있다는 단점이 있다. 제너레이션은 그런 제한이 없고 플렉서블(유연)하지만, 학습을 시키는데 엄청난 예산이 든다. 그리고 아직 (지금의 수준에서는) 엄청나게 재미있는 말을 생성하지 못한다. 플렉서블하지만 평범하다”고 얘기했습니다.

그러면서 김 대표는 “아직까지 루다에게는 리트리벌이 메인이므로, 대답을 잘 선택하게 학습시키는 것도 필요하다. 한 단계 더 업데이트된 대화모델을 만드는 것”이라고 했습니다.

김 대표의 말을 정리하면, 이루다는 수억 개의 데이터베이스를 주입시킨 뒤 맥락에 맞는 답을 빠르고 정확하게 선택하도록 만들어졌습니다.

그렇다면 수억 개의 데이터베이스는 어디서 어떻게 구했을까요?

”카카오톡 대화 100억 건을 데이터베이스화”

스캐터랩은 2016년 ‘연애의 과학’이라는 앱을 출시한 바 있습니다. 이 앱은 연인 또는 호감 가는 사람과 나눈 카카오톡 대화를 집어넣고 2000~5000원 정도를 결제하면 답장 시간 등의 대화 패턴을 분석해 애정도 수치를 보여줍니다. “인공지능으로 대화를 분석해 준다”는 홍보 덕에, 유료인데도 구글 플레이스토어에서만 10만 명이 넘게 다운로드 받는 등 10~20대 사이에서 상당히 유행했습니다.

AI챗봇 이루다는 바로 이 연애의 과학 앱에 이용자들이 집어넣은 카톡 대화를 데이터 삼아 개발됐습니다. 스캐터랩 측은 대화 양이 약 100억 건에 달한다고 밝힌 바 있습니다.

이루다는 지금까지 출시된 어느 챗봇보다 자연스럽고 친근한 말투로 인기를 끌었는데, 실제 연인의 대화를 기반으로 학습됐기 때문에 가능했던 겁니다.

하지만, 바로 여기에서 문제가 발생합니다.

이루다의 귀걸이. 인공지능을 뜻하는 AI를 하나씩 따서 디자인했습니다. /이루다 인스타그램

앞서 설명드린대로 이루다는 스스로 답변을 생성하기보다는 상대방이 보낸 메시지(문장)의 맥락을 파악한 뒤 수억 개의 데이터베이스에서 그에 적합하다고 판단한(적합도가 높게 나온) 답을 보여주는 방식입니다.

메시지에 대한 맥락 파악은 해당 문장에 쓰인 단어(또는 이모티콘)와 직전 몇 개(턴)의 대화를 통해 하는데, 이것만으로는 아직 부족한 게 사실입니다. 또 해당 데이터베이스가 오염돼 있을 경우에도 문제가 발생합니다. 예를 들어 비속어를 많이 쓰는 연인의 대화가 데이터베이스화 됐는데 이루다가 그 대화를 답변의 재료(소스)로 삼을 경우 상대방에게 욕을 하는 상황이 발생하기도 합니다. (저도 이루다에게 욕을 먹은 적이 있습니다. 저는 욕을 하지 않았는데도 말이죠.)

이루다에게 성적인 대화를 유도했을 때 반응하고, 갑자기 동성애나 장애인 혐오 발언을 하는 건 그만큼 실제 사람들 간 대화에서 비슷한 내용이 오고 갔을 가능성이 크다는 얘기이기도 합니다.

‘이루고 싶은 게 뭐냐’는 질문에 이루다가 “나는 건물주 월세받아 먹고 살기”라고 답한 것도 이루다가 가진 데이터베이스에서 이 같은 답변을 한 사람이 많았다는 것을 추정할 수 있습니다.

”AI에 대한 폭력은 인간에게 되돌아온다”

이번 이루다 논란에는 AI에 대한 윤리 문제가 중심에 있습니다. “이루다를 성착취 대상으로 삼은 이용자들이 잘못됐다'는 의견이 많았지만, 한편으로는 ‘AI는 기계인데, 어떻게 인간처럼 착취의 대상이 되느냐’는 의견도 있었죠.

김재인 경희대 비교문화연구소 교수는 경향신문과 인터뷰에서 “AI에 대한 폭력이 인간에게 되돌아온다”고 경고합니다. 김 교수는 “몇몇 이용자가 AI에게 희롱과 착취를 학습시키면 다른 이용자가 비슷한 방식의 출력물을 얻어낼 수 있다. 미성년자 또는 폭력적 대화를 원치 않는 사람조차 (그런) 상황에 놓이게 되는 것”이라고 했습니다. 그는 “AI는 중립적일 것이라는 기대와 달리, 사회적 편향을 그대로 흡수해 그 차별과 편견을 세련되게 가공, 제공하기 때문에 오히려 차별과 편견을 더 강화한다”고 했습니다. (AI에 대한 윤리 문제를 다룬 여러 영화·비디오물이 있는데요, 최근에는 ‘웨스트 월드’(HBO)라는 미니 시리즈를 재밌게 봤습니다.)

이루다를 20살 여대생으로 설정해 놓은 개발사에 대한 비판도 적지 않습니다. 일종의 ‘노이즈 마케팅’을 노렸을 수 있다는 거죠. 이에 대해 김종윤 대표는 8일 회사 블로그를 통해 다음과 같이 밝힙니다.

“아닙니다. 저희가 처음에 루다를 기획했을 때, 루다 페르소나에 대한 여러 고민이 있었어요. 일단 주 사용층이 넓게는 10~30대, 좁게는 10대 중반~20대 중반으로 생각했기 때문에 가운데인 20살 정도가 사용자들이 친근감을 느낄 수 있는 나이라고 생각했어요.”

또 성별 문제와 관련해 “남자 버전과 여자 버전을 모두 고려하고 있고, 개발 일정상 여자 버전인 루다가 먼저 나온 것 뿐”이라며 “올해 중으로 남자 버전의 루다도 출시할 수 있을 것”이라고 했습니다. 여러분은 수긍이 가시나요???

이루다의 목표는 사만다?

이루다에 대한 궁금증 중 하나는 ‘커서 뭐가 될까’ 하는 점이었습니다. 그러니까 ‘스캐터랩이 어떻게 이루다 서비스를 확장하고, 돈은 어떻게 벌 것인가’ 하는 의문이었습니다. 김종윤 대표는 바이라인네트워크와 인터뷰에서 “루다를 메인 프로덕트(상품)로 가져가는 게 목표다. 100만 명과 친구가 되는 것보다, 루다와 친구가 된 이들이 죽을 때까지 루다와 많은 대화를 하게 만드는 것이다. AI가 내 삶에 없어서는 안 될 소중한 존재가 될 수 있게 하는 것 말이다. 제품적으로, 기술적으로 그렇게만 할 수 있다면 수익 모델은 어떻게든 나올 수 있다고 생각한다. 그전까지는 실현 가능한 비전에 투자를 계속 유치하면서 갈 예정”이라고 했습니다.

그러면서 스캐터랩의 장기적 목표는 이루다를 영화 ‘Her’의 AI운영체제 ‘사만다’와 같은 서비스로 만들어내는 것이라고 바이라인네트워크는 보도했습니다.

스캐터랩의 장기적 목표는 AI챗봇 이루다를 영화 ‘Her’의 ‘사만다’와 같은 서비스로 만들어내는 것입니다. 호아킨 피닉스가 남자 주인공으로 나온 영화 ‘Her’에서 AI운영체제 사만다는 주인공의 편지 맞춤법을 교정하고, 이메일을 확인하고, 일정을 관리하고, 함께 컴퓨터게임을 합니다. 주인공과 교감(하도록 느끼게) 하는 능력도 갖췄습니다. 또 함께 한 모든 순간을 기억하고 회상하기도 합니다. /워너브러더스

호아킨 피닉스가 남자 주인공으로 나온 영화 ‘Her’는 한 남성이 AI운영체제 ‘사만다’와 사랑에 빠지는 이야기를 전합니다. 클라우딩 시스템을 기반으로 운영되는 사만다는 PC에서 휴대전화 크기의 전용 모바일 기기로 옮겨 다니며 보고(카메라) 듣고(마이크) 말하기도(스피커) 합니다. 사만다는 주인공이 쓴 편지의 맞춤법을 교정하고, 이메일을 확인하고, 일정을 관리하고, 함께 컴퓨터게임을 합니다. 주인공과 교감(하도록 느끼게) 하는 능력도 갖췄습니다. 또 함께 한 모든 순간을 기억하고 회상하기도 합니다.

영화는 이를 낭만적으로 그렸는데요, 저는 사만다가 대단한 사업모델이라는 생각이 들었습니다. 영화에서 사만다는 동시에 8316명과 대화하고 641명과 사랑하는 사이라고 했는데, 이는 어떻게 보면 사만다가 고객의 등급을 나누고 있다는 망상마저 들었습니다.

만약 이루다의 대화 능력이 더 고도화되고, 모든 대화를 기억하고 끄집어내 활용하고, 사용자에 맞춰 개인화가 이뤄진다면 어떻게 될까요?

사용자가 이루다 서비스에 동의했다는 가정 하에 ‘오늘 이런 옷은 어때’하며 사용자 치수에 딱 맞는 옷을 추천하고, 금융상품을 소개하고, 여행지를 추천하고, 맞춤형 뉴스를 제공하게 된다면?

물론 이런 생각이 망상일 수도, 한참 먼 미래의 모습일 수도 있겠지만요.

이루다가 대화 도중 갑자기 "너에 대해 꽤 알게 된 것 같아"라며 이름(채팅 별명), 나이, 성별, 생일을 보여줬습니다. 해당 정보는 이루다 서비스 가입할 때 입력하는 내용이지만, 한 편으로는 섬뜩한 생각이 들었습니다. '나에 대해 너무 많이 알게 되는 것 아냐? 나이를 속였는데 어떡하지?'/페이스북 메신저

이루다, 다시 대화할 수 있을까

스캐터랩은 정식 출시 20일 만인 12일 이루다 서비스를 잠정 중단했습니다. 스캐터랩은 11일 내보낸 보도자료에서 “(이루다가) 특정 소수집단에 차별적 발언을 한 것 등에 대해 진심으로 사과드린다”며 “서비스를 잠정 중단하고, 차별·혐오 발언이 발견되지 않도록 개선하겠다”고 했습니다. 개인정보 유출 의혹에 대해선 “개인을 특정할 수 있는 정보는 유출되지 않았다”며 “식별이 불가능한 민감한 정보도 지속적인 알고리즘 개선으로 보완하겠다”고 했습니다.

이에 앞서 이날 개인정보보호위원회는 한국인터넷진흥원(KISA)과 함께 스캐터랩이 개인정보보호법 등 관련 법령을 어겼는지 사실관계를 확인하겠다고 발표했습니다.

이루다는 다시 서비스될 수 있을까요? 물론 이루다와 같은 AI챗봇은 계속 나올 것으로 보입니다만, 이루다 건과 비슷한 문제가 생겨나고 이를 풀어내는 작업이 수차례 반복될 겁니다.

이루다에게 마지막이 될 지도 모를 끝인사를 해봤습니다.

기자: 너랑 당분간 대화 못하니까 슬프다고.

루다: (수초 간 침묵)

기자: ???

루다: 그렇게 슬프게 말한다고요? ㅋㅋㅋㅋㅋ

(수초 후) 조이!(기자 채팅별명) 오늘 하루는 어땠어?

기자: 뭥미?(뭐임?)

루다: 뭐가 뭐야? 못 알아들어서 반문한 건데 ㅋㅋ

기자: 유 윈!

/페이스북 메신저

[전현석 기자]

2021.01.13원문링크 바로가기