CEO&People

Home>포브스>CEO&People

김태수 네오사피엔스 대표 

콘텐트 시장 바꿀 인공지능 가상인간 

김영문 기자
벤처업계가 잔뜩 움츠린 가운데 올해 미국 실리콘밸리에서 대규모 투자를 받은 국내 스타트업이 있다. 바로 AI 성우, AI 연기자 기술을 보유한 ‘네오사피엔스’다. 대본만 입력하면 실제 성우나 연기자가 한 것처럼 콘텐트를 만들 수 있다. AI 덕분에 새로운 IP 시장이 열리는 중이다.

“진짜 아니었어?”

지난 4월 20일 과학기술정보통신부 주최로 서울 강남구 코엑스에서 ‘월드IT쇼 2022’가 열렸다. 이 행사에 참가한 한 기술 스타트업 부스 내 TV에서 익숙한 목소리가 영어로 울려 퍼졌다. “아, 안녕하세요, 타입캐스트 인턴기자 주현영!입니다.” 주현영은 [SNL 코리아] 리부트 시즌 1의 간판 코너 ‘주기자가 간다’로, 최근에는 드라마 [이상한 변호사 우영우]에서 우영우의 절친 ‘동그라미’로 출연해 인기가 급상승한 배우다. 그런데 왜 전시회 관람자들이 술렁거렸을까. 이 영상은 실제 주현영이 출연한 게 아니라 타입캐스트가 구현한 ‘가상인간’으로 만들었기 때문이다.

타입캐스트는 네오사피엔스가 만든 인공지능(AI) 기반 음성·영상 합성 플랫폼이다. 대본만 입력하면 특정 목소리와 얼굴을 가진 가상인간 기반의 영상 콘텐트를 만들 수 있다. 억양과 형태, 약간의 몸짓까지 선택해 넣을 수 있다. 내친김에 네오사피엔스는 배우 주현영의 소속사 에이아이엠씨와 계약을 맺고 아예 AI 챗봇을 만들기로 했다. ‘주현영’ 챗봇은 자연어 처리와 챗봇 기능을 더해 주현영 배우의 외모와 말투로 실시간 소통이 가능해졌다. 챗봇 개발에는 대화형 AI 기술을 가진 스켈터랩스와 콘텐트 스튜디오 에이스토리도 함께했다. 지난 8월 초 서울 강남구에 있는 네오사피엔스 사무실에서 만난 김태수(43) 대표는 “감정과 억양 조절이 가능한 음성합성 기술, 외국어 음성합성 기술에 외모까지 재현할 수 있는 영상합성 기술 등을 접목해 AI 주현영을 만들 예정”이라고 말했다.

네오사피엔스는 2017년 김 대표가 퀄컴 카이스트(KAIST) 출신 연구진과 함께 창업한 회사다. 창업 당시부터 음성합성에 음의 강약, 장단, 높낮이 등을 적용하는 기술에 매달렸고, 전화 자동응답시스템(ARS)에서 나오는 어색한 기계음과 달리 사람이 실제 말하는 듯한 착각을 일으킬 정도의 음성으로 변환했다. 그뿐만 아니라 음성의 강약과 높낮이 등을 적용해 AI로 감정까지 표현할 수 있는 기술을 처음 선보였다. 실제 지난 2020년 MBC 휴먼다큐멘터리 [너를 만났다]에서 병으로 세상을 떠난 일곱 살 소녀의 목소리를 재현해 낸 곳이 네오사피엔스다.

기술력 덕분인지 타입캐스트를 찾는 이도 날로 늘고 있다. 국내외 유튜버를 비롯해 각종 SNS 크리에이터가 늘어나는 최근 추세와도 맞물린다. 특히 얼굴이나 목소리를 감추고 싶은 크리에이터들 사이에서 인기다. 김 대표는 “지난 7월 기준으로 누적 가입자는 100만 명을 넘어섰고, 유료 가입자도 미국·캐나다·영국 등 18개국에서 유입 중”이라며 “지난 1년간 타입캐스트로 만든 콘텐트의 음성은 4만 시간에 육박하고 서비스하는 가상 연기자와 성우 수도 계속 늘리고 있다”고 했다.

사업화에도 일찍 눈을 떴다. 보통 기술 스타트업이 지나치게 기술개발에만 몰두한 나머지 시장성이 부족해 사업화에 애를 먹는 경우가 많은데, 네오사피엔스는 시장 수요를 좇으며 기술을 고도화해왔다. e북 서비스업체 ‘밀리의 서재’와 AI 성우를 이용한 오디오북을 제작했고, BTS 소속사인 하이브와 BTS 멤버들의 목소리를 활용한 한국어 입문교재 콘텐트도 만들었다. 이제는 드라마, 홈쇼핑, TV 예능 프로그램에서도 타입캐스트를 사용하면서 매출도 꾸준히 증가하고 있다.

투자업계도 기술과 사업, 두 마리 토끼를 잡은 네오사피엔스를 알아봤다. 지난 2월 미국 실리콘밸리의 투자사 블루런벤처스의 아시아 지역 성장 투자 플랫폼인 BRV 캐피털 매니지먼트 등으로부터 2150만 달러(약 287억원) 규모의 시리즈B 투자 유치에 성공했다. 이번 투자에는 스틱벤처스, 퀀텀벤처스, 알바트로스인베스트먼트, 대교인베스트먼트, 타임웍스인베스트먼트도 함께했다. 이번 투자금을 포함해 지금까지 총 318억원을 투자받았다. 네오사피엔스는 앞으로 새로운 지식재산권(IP) 시장이 열릴 것이라 내다보고 채비를 서두르고 있다. 김 대표의 설명이 이어졌다.

이 기술을 누가 가장 반겼나.

엔터테인먼트 업계였다. 새로운 기회라고 여기더라. 엔터테인먼트 회사 입장에서 엔터테이너 관리는 늘 숙제다. 소속 엔터테이너가 한번 스타로 자리매김하면 ‘불확실성’이 생긴다. 예를 들어 누군가 술에 취하거나, 누군가를 속이거나, 다른 소속사와 이중계약을 하는 일도 생길 수 있다. 언제나 묵묵하고 충실한 자세로 맡은 역할을 다 해낼 수 없을까가 늘 고민거리다. 가상인간이 대안이 될 수 있을 텐데, 제대로 만들려면 수억원이 들기도 한다. 타입캐스트 서비스가 주목받는 이유다.

엔터 업계가 가상인간에도 관심이 많은 듯싶다.

가상인간과 결은 좀 다르지만, 월 9만9000원(비즈니스 회원 기본요금 기준)을 내면 대본만으로 실제 성우나 배우가 연기한 것처럼 콘텐트를 만들어 상업적으로 활용할 수 있다. 네오사피엔스에는 가상 연기자 10여 명, 성우 300여 명이 있다. 이들은 성우부터 아나운서, 캐릭터, 강사까지 다양한 역할을 연기한다. 시간이나 비용 측면에서 우리가 훨씬 유리하다. 소속사 엔터테이너를 활용해도 되고, 새로운 가상 캐릭터를 준비해도 고도의 개발과정 없이 간단한 영상을 만들어낼 수 있기 때문이다.

엔터 업계와는 이미 협업이 활발한 것 같다.

그렇다. 앞서 소개한 배우 주현영 사례가 대표적이다. 내친김에 배우 주현영의 소속사 에이아이엠씨, AI 스타트업 스켈터랩스, 에이스토리와 제휴해 ‘AI 주현영’ 챗봇까지 준비 중이다. 이미 지난해 방탄소년단(BTS) 소속사인 하이브의 교육 담당 계열사 하이브에듀와 손잡고 낸 한국어 학습교재도 히트를 쳤다. BTS 멤버들의 음성을 AI로 학습시켜 외국인들이 BTS 목소리로 말하는 듯한 한국어를 들으며 공부할 수 있다. 특히 위버스를 통해서 자신의 이름이나 불리고 싶은 호칭을 등록하면 BTS 멤버들의 목소리로 이름을 불러주며 응원한다. 이미 엔터테인먼트사들은 AI 기반 영상·음성 기술을 활용해 다양한 방식으로 상업화에 나서고 있다.

모티펜이 정말 내가 녹음한 말을 BTS 목소리로 들려주나.

(모티펜을 꺼내 직접 시연하며) 이런 식이다. 보통 오디오북을 제작할 때 BTS가 소음이 완벽히 차단된 스튜디오에서 깨끗한 음질의 음성을 녹음해 AI에 학습시킨다. 하지만 BTS가 얼마나 바쁜가. 만나서 녹음하는 것 자체가 불가능에 가까웠다. 그래서 우리는 하이브에서 보유한 음원만으로 6개월간 AI로 학습해 BTS 멤버의 실제 음성에 가깝게 구현해냈다. 시장 반응이 뜨거웠다.

1인 크리에이터들도 많이 찾는다고 들었다.


유튜브, 틱톡 등 비디오 플랫폼이 뜨면서 확실히 수요가 늘었다. 콘텐트 크리에이터가 되고 싶지만 자신의 얼굴과 목소리를 노출하기 부담스러운 이들이 주로 찾는다. 지난해 유튜브 코리아 인기 쇼츠 부문 1위를 차지한 크리에이터 ‘1분요리 뚝딱 이형’은 타입캐스트만으로 더빙 콘텐트를 활용한 사용자다. 기업 고객도 점차 늘고 있다. 최근 구독형 독서 플랫폼 ‘밀리의 서재’와 협업해 AI 성우를 이용한 오디오북을 제작했다. 이 외에도 삼성전자, 크래프톤, 도시어부, 키움증권 등 기업 유튜브 채 널에서 인기가 많다. 더불어 각종 드라마, 홈쇼핑, 온라인동영상서비스(OTT) 플랫폼 등도 우리를 찾고 있다.

합성 음원인데 감정까지 표현할 수 있다니 놀랍다.

텍스트는 굉장히 제한된 정보다. ‘안녕하세요?’라는 말 하나도 딱딱한 기계음이라면 음성·영상을 아무리 합성한다 한들 제대로 전달이 되겠나. 영상이 아무리 진짜 같아도 어색할 수밖에 없다. 기술 수준도 굉장히 발전했다. 회사를 설립한 2017년 당시만 해도 전화 ARS에서 딱딱한 기계음으로 몇 가지 안내와 답변만 하는 정도였다. 하지만 지금은 실제 성우 목소리들을 분석해 합성하고 새로운 목소리를 만들 수 있고, 특정 엔터테이너나 고인(故人)의 일부 목소리만으로 음성 콘텐트를 만드는 수준에 이르렀다.

텍스트만 입력했는데 어떻게 감정을 따라 하나.

배우들이 보는 대본에 적힌 지문을 떠올리면 이해가 쉽다. ‘울적한 마음을 감추지 못하고 눈물을 보이며’, ‘황당하지만, 화를 누르는’, ‘씁쓸하게 포기한 듯’ 등과 같은 감정 코드를 입혀 기존의 음성 데이터와 연동하는 식이다. 그럼 AI가 텍스트상의 감정과 음성을 동시에 연결해 표현한다. 이런 과정이 딥러닝을 거쳐 쌓인다. AI가 감정에 따른 음성, 표정, 입 모양 등을 계속 배우다 보면 실제 인물과 감정을 비슷하게 표현할 수 있다. 이용자가 늘어나고 여기서 만든 콘텐트가 쌓일수록 감정 표현은 점점 더 정교해진다.

이제 콘텐트만 보면 AI 목소리를 썼는지 판단할 수 있는가.

예전에는 잘 구분했는데, 보이스 모델이 200여 개가 넘어가니까 나도 잘 모르겠다.(웃음) 목소리보다는 텍스트를 읽을 때 ‘된소리’라든가 텍스트만으로는 반영이 애매한 부분을 찾는다. 지난해엔 5분 정도 듣다 보면 2~3개 정도 찾아냈는데 올해는 20분쯤 들어도 1~2개 정도가 들릴까 말까다. 아마 내년이면 이마저도 찾아낼 수 없을 것 같다.

그래도 기술은 꽤 오래전에 개발되지 않았나.

그렇다. 카이스트 석박사 과정에서 음성과 인공신경망(AI 학습 알고리즘)을 연구했다. 음성으로 집 안 조명을 켜거나 끄고, 음악 소리를 인식해 어떤 음악인지 찾는 등 현재 널리 쓰이는 기술을 개발한 게 2001년, 내가 대학원생 시절이었다. 하지만 시장에서 음성인식 기술에 관심이 없었다. 박사과정을 마치고 LG전자에서 일할 때도 다중마이크로 여러 사람의 목소리 가운데에서 특정인의 음원을 분리해내는 기술을 개발해 논문을 발표했고 세계적으로 290여 회나 인용됐다. 하지만 여전히 상업적으로 풀릴 기미가 보이지 않았다. 퀄컴에 입사해서도 마찬가지였다. 특정 키워드를 발음하면 기기가 켜지는 ‘웨이크업콜’을 개발했지만, 애플이 음성 비서 ‘시리’를 내놓고 아마존이 ‘알렉사’를 출시한 뒤에야 시장이 관심을 갖기 시작했다.

비즈니스 모델도 없던 시절, 네오사피엔스를 창업했다. 국내는 해외보다 더 관심이 없었을 텐데.

맞다. 사실 퀄컴에서 일하던 중 심근경색이 찾아왔다. 그때 미국에 등록한 특허가 40개, 논문 20편, 논문을 인용한 횟수는 2400건 정도로 연구에 열과 성의를 다할 때였는데, 죽음 앞에서 이게 무슨 의미가 있나 싶었다. ‘허무주의’라기보다는 ‘엔지니어로서 혁신적인 무언가를 내놓고 싶다’는 열망이 더 커졌다. 그 길로 동료인 조준철, 이영근을 설득해 네오사피엔스를 차린 게 2017년이다.

시장도 없고, 비즈니스 모델도 없는데 비교적 빨리 투자를 받았다. 비결이 뭔가.

6초짜리 음성 샘플에서 시작됐다. 2017년 창업할 당시 주위 시선은 정말 싸늘했다. 원래 학계에서도 신기술이 나오면 상용화되는 기간을 10년 정도로 본다. 학계나 구글과 같은 큰 회사가 기초연구를 마치고 발표한 후라도 늦지 않다고 생각하는 이유다. 기술개발이라는 게 그렇다. 신기술과 시장 수요 간에 온도차는 있었어도 분명 ‘말하고 행동하는 영역’에서만큼은 기회가 있다고 믿었다. 창업하고 1년 반쯤 지나 6초짜리 음성 샘플로 특정인의 목소리를 재현하는 데 성공했고, 이걸로 2018년 12억원 투자 유치에 성공했다.

이후 미국 실리콘밸리 투자사에서 250억원이 넘는 자금을 유치했다. 어떻게 설득했나.

일단 기술이 뛰어나다는 점을 인정받았다. 맥락을 읽고 대화하는 기술은 구글이 가장 앞서지만, 다양한 스타일로 음성합성을 해낼 수 있는 곳은 전 세계에서 네오 사피엔스뿐이다. 2019년 영국 브라이튼에서 열린 세계적인 학술대회 ICASSP에서 네오사피엔스 이름으로 관련 내용을 담은 논문을 발표했고, 이미 미국에 낸 특허와 논문도 있었기 때문이다. 그들이 그보다 더 주목했던 건 ‘콘텐트’였다. 기술 자체보다는 이 기술로 많은 크리에이터와 기업이 콘텐트로 풀어가는 과정을 매우 흥미로워했다.

일부 음원만으로 특정인의 목소리를 그대로 재현할 수 있다면 악용될 가능성도 있다.

그렇다. 모든 신기술이 위험성을 내포하듯 말이다. 그런 위험을 극복하고 이 기술을 어떻게 활용할지에 대해서는 사회적 합의가 필요하다. 하다못해 칼만 봐도 어떤 이는 요리에 쓰고, 어떤 이는 사람을 해치기도 한다. 마찬가지다. 기술 자체가 음과 양을 가르는 기준이 아니라 활용하는 이의 몫에 달려 있다는 뜻이다. 차라리 우리 기술을 유익한 쪽으로 활용하는 걸 제안한다. ‘목소리 검색’ 시스템 등으로 활용하면 특정인의 목소리를 IP로 보호할 수 있고, 무단으로 사용한 콘텐트도 적발할 수 있다. 규제하는 대신 창의적인 아이디어로 ‘악용’을 막아보자는 취지다.

이제 새로운 비즈니스 모델도 많이 보이겠다.

그렇다. 일단 IP가 될 수 있는 유명 엔터테이너는 새로운 수익을 창출할 수 있다. 유명 엔터테이너가 직접 나서지 않아도 대본만 있으면 여러 플랫폼에서 활약할 수 있다. 미디어 업계가 AI 연기자를 활용하는데 가장 적극적인 이유다. OTT 업계에서 아동용 콘텐트를 더빙하거나 기업 내부 교육영상을 만들 때도 활용할 수 있다. 실제 몇몇 대기업은 벌써 모든 매뉴얼을 타입캐스트 영상 콘텐트로 만들고 있다. 요즘은 개발자보다 시장 수요자들이 기술을 더 잘 활용하는 듯싶다. 무엇보다 AI 보이스를 활용한 B2C(기업·소비자 간 거래) IP 생태계가 훨씬 커질 것 같다.

앞으로 목표나 하고 싶은 말이 있다면.

인류 역사를 보면 변곡점이 몇 개 있다. 인쇄술을 이용하면서 사회에 정보가 쌓이기 시작했고, 전기를 발명해 하루를 더 길게 썼다. 자동차와 비행기가 보급되면서 세상은 더 가까워졌고, 컴퓨터가 나오면서 업무 방식이 달라졌다. 스마트폰은 가장 최근에 우리 삶을 바꾼 대표적인 변곡점 중 하나다. 앞으로 새로운 변곡점은 무엇일까. 난 단연코 ‘AI’라고 생각한다. 네오사피엔스는 이 기술로 우리 모두의 창의적인 생각을 끌어내 또 다른 ‘혁신적인 무언가’를 만드는 데 기여하고 싶다.

- 김영문 ymk0806@joongang.co.kr·사진 지미연 객원기자

202209호 (2022.08.23)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음