카카오 맨 세 명이 AI(인공지능)을 이용해 혁명에 버금가는 시대적 변화를 이끌겠다며 창업에 도전했다. ‘실용주의 스타트업’을 표방하는 ‘리턴제로’의 이야기다.
“통화 음성을 수초 만에 문자로 변환하는 기술은 저희가 국내 최초 맞습니다.”이참솔 리턴제로(returnzero) 대표는 확신에 찬 목소리로 말했다. 음성을 문자로 바꾸는 기술은 사실 현대인에게 낯설지 않다. 2010년 구글은 ‘말로 쓰는 모바일 서비스’를 내놨다. 이메일 내용이나 문자메시지, 대화 내용 등을 음성으로 입력하면 자동으로 문자로 변환해주는 방식이다. 국내에도 유사한 서비스를 제공하는 업체가 많다. 2020년 네이버는 ‘클로바노트’를 처음 선보였고 지난해 SK텔레콤은 음성파일이 아닌 통화 음성을 문자로 바꿔주는 ‘AI(인공지능) 통화녹음 서비스’를 출시했다.이보다 더 앞선 기업이 있다. AI 스타트업 리턴제로는 2020년 3월, 통화 음성을 5~10초 만에 문자로 변환하는 앱 ‘비토(VITO)’를 세상에 내놨다. 통화 음성을 실시간에 가까운 속도로 바꾸는 기술은 국내에선 처음이었다. 특히 2018년 설립된 스타트업이 2년 만에 이뤄낸 성과라는 데 업계는 주목했다. 이른바 ‘눈으로 보는 통화 앱’을 표방하는 비토는 통화 음성을 문자로 변환해 메신저 형태로 보여줄 뿐 아니라, 통화 내용 검색 기능과 부분 재생 기능도 갖췄다. 전화가 오면 발신자와 예전에 통화한 내용을 볼 수 있어 직장인에게 유용하다는 평이다.비토 앱에서 문자로 변환되는 통화 음성은 지난 6월 기준으로 매일 2만4000여 시간이다. 비토가 처리한 통화 건수는 이미 1억6600만 건을 넘어섰다. 누적 다운로드 수는 지난 4월 말 50만 건을 돌파했고, 불과 2개월 만에 65만 건을 달성했다. 이 같은 성장세에 대해 이 대표는 “비토는 타사와 달리 인터넷망이 아닌 통신망을 이용해 더욱 안정적인 통화 환경에서 높은 수준의 서비스를 제공하기 때문”이라고 답했다.리턴제로는 한국과학기술원(카이스트·KAIST) 전산학과 출신인 카카오 초기 멤버 세 사람이 세운 스타트업이다. 이들은 2016년 구글 자회사 ‘딥마인드’가 개발한 AI 바둑 소프트웨어 ‘알파고(AlphaGo)’가 바둑 천재로 불리는 프로기사 이세돌 9단을 4승 1패로 이긴 사건을 보고 충격을 받아 AI에 주목했고, 이와 관련한 창업에 도전하기로 뜻을 모았다. 이들은 AI의 어떤 점에 매료돼 카카오 같은 대기업의 안정된 생활을 포기했을까?“인터넷에서 모바일로 이어지는 새로운 시기에 AI가 다음 기회를 선점하리라는 확신이 들었습니다. 20년 전에는 인터넷이 붐이었고, 10년 전에는 모바일이 세상을 바꿔놓았죠. 그때 탄생한 기업들이 오늘날 대기업으로 불리는 곳입니다. 결정적인 시기에 중요한 일을 했던 기업들은 괄목할 만한 성장을 이뤄낼 기회를 얻었습니다.”최근 창업 후 단기간에 엑시트(투자회수)하는 스타트업이 늘어나고 있지만, 이 대표는 리턴제로의 지속가능성에 주목한다. 그는 “애매한 규모의 엑시트를 바라고 만든 회사가 아니다”라며 “AI가 이끄는 거대한 변화 속에서 중요하고도 결정적인 역할을 수행하는 기업이 될 것”이라며 당찬 포부를 드러냈다.
실용주의 스타트업 ‘리턴제로’AI가 가져올 가장 큰 변화를 전망한다면.기술이 발전하면서 기계가 사람이 하는 일을 대신하는 경우가 늘어났다. 2차 산업혁명을 계기로 사람의 수작업은 줄었고 계산·연산작업은 컴퓨터가 대체했다. 그때마다 직업이 대규모로 바뀌었다. 이후 현재까지 직업적 변화는 소강상태에 있지만 3~4년 후에는 AI의 역할 변화가 시작되리라 본다. 너무도 당연하게 사람만이 할 수 있다고 여겼던 일들, 창의적이거나 복잡한 일들을 AI가 더 잘한다고 평가할 시대가 다가오고 있다. 리턴제로는 그때를 대비하기 위해 설립한 기업이다.
비토 기술에 국한하지 않겠다는 뜻으로 들린다.리턴제로의 정체성은 데이터와 AI에 있다. 이른바 ‘데이터 선순환’의 파이프라인을 여러 개 만드는 기업으로 성장할 계획이다. 데이터 선순환이란 이용자 증가에 따라 더 많은 데이터를 확보하면 AI가 이를 학습해 서비스 고도화로 이어지는 과정을 말한다. 서비스가 좋아지면 이용자는 더 증가할 테니 유기적 선순환이라 말할 수 있다.언론에 리턴제로가 음성 AI 스타트업으로 소개되고 있어 안타깝다. 우리는 ‘실용주의 스타트업’이다. 실제 서비스로 이어져 많은 사람이 이용할 만한 기술을 개발하고 있다. 단순히 신기한 것, 논문에만 실리고 현실에 구현되지 않을 법한 기술은 우리가 다루는 대상이 아니다. 앞으로 선보일 기술은 다양하다. 현재 개발 중인 서비스를 향후 공개하면, 많은 사람이 ‘음성을 하는 회사가 왜 이런 걸 하지?’라고 말할 것이다. 지금은 어떤 서비스인지 밝히기 곤란하다.
비토는 이대로 멈추나.비토는 비토대로 간다. 다른 국가의 언어로 서비스할 계획이다. 이미 지난해 비토의 중국 버전인 ‘수지바오(Sujibao)’를 출시했다. 영어, 일본어 등 수요가 많은 언어 위주로 시장을 선점해나갈 계획이다. 또 동남아 국가 몇 곳을 염두에 두고 있다.
첫 번째 아이템으로 음성 서비스를 택한 이유가 뭔가. 비슷한 기술은 이미 많은데.맞다. 음성인식은 오래된 분야이기에 이것만 20년 넘게 연구한 전문가와 랩이 수두룩하다. 많은 사람이 ‘너희가 음성인식을 바닥부터 시작하면 그들과 경쟁할 수 있겠냐’고 비아냥거렸다. 하지만 음성인식 기술이 아무리 오래됐다고 해도 2018년 당시 한국어 서비스는 영어, 중국어에 비해 기술력이 한참 떨어졌다. 최대한 많은 데이터를 확보해 AI가 배우도록 하는 과정이 부족했기 때문이다.
다량의 데이터 확보는 어떻게 했나.그게 가장 큰 고민이었다. 몇백 시간이 필요한데 막막했다. 그러다 음성 데이터를 사오는 앱을 만들자는 아이디어가 나왔다. 자신의 음성 데이터를 리턴제로에 판매하는 앱이다. 프라이버시 문제 때문에 사람들이 꺼릴 것 같지만 의외로 많은 사람이 음성 데이터 판매에 거리낌이 없었다. 이 아이디어를 계기로 단기간에 양질의 데이터를 확보할 수 있었다.
타 기업의 유사 서비스와 다른 점은.이러한 기술이 구현된 서비스는 대체로 비싸다. 음성인식과 화자분리라는 두 기술 모두 딥러닝을 활용하기 때문에 GPU(그래픽 처리장치)가 필요한데, 이게 비싸다. 그래서 많은 양의 데이터를 처리하게 되면 감당할 수 없는 비용이 나온다. 최적화가 필요해 보였다. 그러면 가격경쟁력이 높아져 많은 사람에게 서비스할 수 있으리라 봤다. 비토는 정확하면서도 많은 양을 빠르게, 게다가 저렴하게 서비스하고 있다.
스타트업 매력은 성취의 공유이번 창업이 처음은 아니라고 들었다.2010년 ‘로티플’이란 모바일 커머스(상거래) 스타트업을 만들었다. 소프트뱅크 투자를 받아 성장 가능성이 높다는 평가를 받았지만 실패로 끝났다. 돌이켜보면 모바일 결제 기술이 무르익지 않았고 하드웨어도 발전이 부족한 상황에서 섣불리 시작한 사업이었다. 아쉬움이 많아 1년 반 정도 시간을 들여 로티플의 시작과 끝을 복기했다. 뭐가 문제였을까. 개발자들은 흥미 있어 보이면 닥치는 대로 도전해보는 경향이 있다. 내가 실용주의 스타트업을 지향하는 이유가 여기에 있다. (그 후 카카오에 입사하게 된 계기는?) 로티플을 카카오에 넘기고 그곳에 입사해 한동안 카카오 초기 서비스인 ‘플러스친구’를 개발하는 데 몰두했다.
다시 창업에 나선 이유가 뭔가. 어떤 매력이 있나.대학 시절부터 창업에 관심이 많았다. 하지만 로티플이 실패한 뒤 창업은 생각조차 안 했다. 안정적 직장인 카카오에 몸담은 뒤로 마음에 여유가 생겼고 ‘알파고 쇼크’가 터진 뒤엔 다시 창업하고 싶은 욕구가 샘솟았다. 이번에는 AI라는 기술을 통해 시대를 이끌 기업이 될 자신이 있었다. 또 스타트업에는 고유한 매력이 있다. 누군가가 압박하지 않아 하나의 목표를 향해 팀원들이 최선을 다하고 기업 발전에 기여한다. 운명 공동체가 있다는 것은 마음을 든든하게 하고 사업을 지속할 용기를 준다. 성취를 다 함께 나눠 갖는다는 것도 스타트업의 매력 중 하나다.
최근 리턴제로는 비토의 B2C 서비스를 전면 무료화했다. 이유가 뭔가.앞서 말했다시피 음성을 문자로 변환하는 기술은 고가의 GPU를 필요로 한다. 우리는 단기간에 최적화에 성공해 서버 비용을 줄였다. 이제는 데이터가 아무리 늘어나도 비용을 감당할 수 있다. 그러다 보니 더는 매출을 B2C에서 찾지 말고 B2B로 사업 방향성을 전환하자는 의견이 나왔다. 이제는 기업 시장에서 매출을 올리는 쪽으로 갈 계획이다.
앞으로의 계획은.지금까지 우리가 거래한 기업은 대부분 고객을 상담하는 CS콜센터 분야였다. 그런데 해외 사례를 보면 더 큰 시장에서 활동하는 음성인식 기업이 많다. 예를 들면 세일즈, 변호사의 상담 내용, 경찰 수사에 필요한 증거물, 기자의 인터뷰 녹음 등이다. 이런 종류의 음성 서비스는 성장성이 높다. 아직 한국에는 이 같은 시장이 열리지 않았다. 하지만 늘 그랬듯이 선도 시장이 만들어지면 이와 유사한 시장이 뒤따르기 마련이다. 각 분야의 전문용어를 딥러닝해 기술력을 높일 계획이다.- 노유선 기자 noh.yousun@joongang.co.kr·사진 정준희 기자