Tech

이재성 트웰브랩스 대표 

영상 이해 AI의 퍼스트펭귄 

노유선 기자
인공지능(AI) 열풍에 힘입어 기업 대다수가 이미지나 텍스트 기반 AI 기술에 전념할 때, 영상 이해 AI 모델로 눈길을 돌린 스타트업이 있다. 이 퍼스트펭귄의 대담한 도전에 마침내 전 세계가 화답했다. 영상 기반 AI 스타트업 트웰브랩스의 이야기다. 이재성 트웰브랩스 대표와 함께 창업 여정을 따라가봤다.

▎이재성 트웰브랩스 대표는 “AI에 대한 두려움을 ‘스마트한 고민’으로 전환해야 할 때”라고 강조했다.
국방부 면회처인 ‘스타카페’에서 스타가 탄생했다. 국군 사이버작전사령부 소속 병사 세 명이 스타카페에서 의기투합해 설립한 인공지능(AI) 스타트업 ‘트웰브랩스(TwelveLabs)’가 글로벌 무대에서 일약 스타덤에 올랐다. 2023년 세계 최대 그래픽처리장치(GPU) 기업 엔비디아는 처음으로 국내 AI 스타트업에 직접 투자하기로 결정했다. 그 주인공이 바로 트웰브랩스다. AI 시대 최강자로 군림하는 엔비디아가 기술력을 인정한 셈이다. 그해 10월 트웰브랩스는 엔비디아를 비롯해 인텔, 삼성넥스트, 한국투자파트너스 등에서 1000만 달러(약 135억원) 규모 투자금을 유치했다.

트웰브랩스는 영상을 분석·이해하고 설명하는 초거대 AI 모델을 개발하는 기업이다. 이미지 생성 모델과 텍스트 기반 거대언어모델이 화두일 때 트웰브랩스는 영상 데이터 기반 AI 모델에 도전장을 냈다. 퍼스트펭귄의 첫 시도는 성공적이었다. 2021년 10월 트웰브랩스는 마이크로소프트(MS)와 국제컴퓨터비전학회(ICCV)가 주최한 기술 경연 대회 ‘밸류 챌린지 2021(VALUE Challenge 2021)’에서 영상 검색 트랙 부문 1위를 차지했다. 미국 컬럼비아대, 카카오브레인, 텐센트 등 쟁쟁한 경쟁자를 제친 결과다.

지난 5월 2일 서울 용산에 있는 트웰브랩스 사무실에서 이재성 대표를 만났다. 엔비디아 투자를 유치했을 때 심정을 묻자 이 대표는 “언론이 주목한 것과 달리 회사 분위기는 비교적 덤덤했다”고 답했다. 샴페인을 터뜨리기엔 시기상조라는 설명이 이어졌다. 그러면서 그는 “2020년 무렵만 해도 영상 AI 관련 논문이 많지 않아 그야말로 맨땅에 헤딩하듯 회사를 운영해왔다”고 말했다. 이 대표에게 굳이 ‘영상 기반 AI 모델’이라는 힘든 길을 택한 이유와 앞으로의 행보 등을 물었다.

군에서 맺은 우정이 창업 열정으로


▎ 사진:트웰브랩스
미국 UC버클리대에서 컴퓨터공학을 공부한 이 대표가 국군 사이버작전사령부에 자원한 건 신의 한 수였다. 그는 그곳에서 실용적 지식을 쌓았고 진한 우정을 얻었다. 이 대표의 군복무 기간에는 한창 다크웹(일반 검색엔진이 아닌 특수한 경로로 접근 가능한 사이트)이란 개념이 화두였다. 다크웹을 통해 정부 기밀문서가 유출되는 심각한 보안 문제가 발생하자 사이버작전사령부는 이를 방지하기 위한 AI 연구에 전념했다. 학구열이 높은 이 대표에게 AI 관련 논문을 마음껏 읽을 수 있는 군 생활은 그리 힘들지 않았다. 그는 “위계 서열을 강조하지 않고 다 같이 AI 연구에 몰두할 수 있어 무척 즐거웠다”며 “AI라는 교집합 덕분에 삼총사가 자연스럽게 형성됐다”고 회고했다.

군에서 맺은 우정은 창업 열정으로 이어졌다. 창업 멤버인 이재성, 김성준, 이승준 등 세 사람 모두 AI 연구원이나 석박사 과정으로 진로를 고려하고 있었지만 어느 순간 창업 얘기가 툭 튀어나왔다고 한다. 2019년만 해도 작은 불씨에 지나지 않았던 창업 아이디어가 사그라들지 않도록 연신 부채질을 한 사람은 이 대표였다. 그는 “당직 근무 때 김성준 개발총괄이사(당시 상병)에게 다가가 ‘같이 창업해요’라고 말했던 기억이 생생하다”고 털어놨다.

물론 저마다 전역 시기가 달랐기에 그들의 꿈은 그저 꿈으로 묻힐 수도 있었다. 하지만 그들의 의지는 강했다. 먼저 전역한 김 이사는 주말마다 꿋꿋하게 노트북을 들고 스타카페를 찾아 이 대표, 이승준 기술총괄 이사와 함께 꿈을 현실로 키워갔다. 세 사람 모두 민간인 신분이 된 2021년, 마침내 트웰브랩스가 문을 열었다. 세 사람은 GPU를 활용해 많은 양의 데이터를 AI에 학습시키는 방법에 관심이 많았다. 특히 이들은 다양한 데이터 중 영상에 초점을 맞추기로 결정했다.

“인간은 영유아 시절부터 무언가를 보고 듣고 만지고 느끼면서 부지불식간에 세상을 이해합니다. 이렇게 뇌에 차곡차곡 쌓인 지식은 언어를 만나 거대하게 증폭되죠. 우리는 AI도 인간의 이러한 학습 과정을 모방할 수 있다는 가설을 세웠습니다. 그렇다면 어떤 데이터가 AI의 학습에 가장 적합할까요? 우리는 이를 영상 데이터라고 봤습니다.”

하지만 당시만 해도 영상 데이터를 이해하는 AI를 연구한 결과물이 많지 않았다. 막막한 도전 앞에서 이 대표는 오히려 “신이 났다”고 말했다. 그는 “기업 규모가 크든 작든 간에, 모든 기업이 영상 데이터 기반 AI를 모르는 상황이었다”며 “스타트업이지만 영상 분야라면 빅테크 기업과 경쟁해도 밀리지 않을 자신이 있었다”고 강조했다.

현재로서는 그의 판단이 정확한 듯 보인다. 트웰브랩스는 지난 2022년부터 3년 연속 글로벌 리서치 기업 CB인사이트의 글로벌 100대 AI 스타트업 ‘AI 100’에 선정돼왔다. 트웰브랩스의 영상 이해 AI 모델은 영상 속 각각의 장면에 포함된 이미지와 소리 등을 분석해 인간이 실제로 쓰는 언어로 매핑(mapping·대응)하는데 탁월하다는 평이다. 지금이라도 빅테크 기업이 빠르게 추격해올 수 있겠다는 기자의 말에 이 대표는 “쉽게 따라잡히지 않을 만큼 기술력이 독보적이라고 자신한다”고 답했다. 그는 “대부분 AI 모델은 ‘예측’에 방점이 찍혀 있다”며 “하지만 영상 AI 분야는 영상 데이터를 처리하고 변환한 다음 새로운 인풋을 언어 모델에 주입해야 하는 복잡한 과정을 수반한다”고 설명했다.

트웰브랩스의 영상 AI 기술은 크게 임베딩(embedding·변환) 모델, 얼라인먼트(alignment·정렬) 모델, 언어모델 등으로 나뉜다. 임베딩 모델은 영상을 이해하고 분석해 숫자 형태로 변환한다. 이 숫자에는 특정 장면에 등장하는 인물과 사건, 소리 등 각종 정보가 함축된다. 이후 임베딩 모델과 언어 모델을 연결하는 얼라인먼트 모델을 거친다. 언어 모델은 숫자로 변환된 데이터를 언어로 묘사하는 기능을 수행한다.

이 대표는 “영상을 언어로 잘 설명할 수 있도록 AI 모델을 학습시키다 보니 미처 예상하지 못했던 능력이 튀어나왔다”며 열띤 표정으로 말했다. 그는 “트웰브랩스 AI 모델은 특정 영상 검색, 영상 요약, 영상 기반 텍스트 생성, 영상 자동 분류, 하이라이트 장면 생성 등 다양한 작업이 가능하다”며 “감춰져 있던 능력치가 발현된 것”이라고 설명했다. 가령 특정 영상에서 ‘여성이 공원에서 나무에 기대어 있는 장면을 찾아달라’고 요청하면 AI가 1초 만에 찾아낸다. 트웰브랩스는 지난 3월 이러한 기능을 갖춘 초거대 AI 영상 언어 생성 모델 ‘페가수스(Pegasus-1)’와 멀티모달(복합정보처리) 영상이해 모델 ‘마렝고(Marengo 2.6)’의 업데이트 버전을 대중에 공개했다.

트웰브랩스 기술은 미디어 자산 관리와 CCTV 영상탐지, 자율주행 영상 이해, 교육 콘텐트 생성 등 다양한 분야에서 활용된다. 영상을 유튜브 숏츠(짧은 영상)로 재가공할 때 트웰브랩스의 영상 검색 기술은 편집 과정을 효율적으로 간소화한다. 또 영상 중간에 브랜드 광고를 추가할 경우 적합한 영상 구간을 파악할 수 있다. CCTV 영상을 이해·탐지해 가출 아동이나 치매 노인 등 실종자를 찾는 데 활용되며, 자율주행 차량의 영상을 분석해 주행 중 어떤 사건이 일어났는지 빠르게 파악하는 데 도움이 된다. 분량이 긴 교육 영상 콘텐트에서 중요한 내용만 간추려 하이라이트 영상을 제작할 수도 있다.

속도감 있는 혁신과 뚝심 있는 자세


승승장구하는 4년 차 스타트업 대표에게도 고민은 있기 마련이다. 아무리 우정으로 똘똘 뭉친 조직이라도 사공이 많으면 배가 산으로 가는 법. 이 대표는 “의견 충돌은 있을 수밖에 없다”며 “지금까지는 서로 이해하고 신뢰하며 위기를 극복해왔다면 이제는 화합의 DNA를 조직문화 전반에 뿌리내리는 것이 과제다”라고 말했다. 현재까지는 순간순간 갈등을 넘겨왔지만 직원이 60명(한국 40명, 미국 20명) 가까이 늘어나면서 단순한 센스로 커버하기엔 역부족이란 설명이다.

“공동 창업자 모두 ‘회사를 위한 최선의 결정을 내리자’, ‘후회 없는 삶을 살자’, ‘속도감 있게 혁신하자’ 등 공통된 가치관을 가지고 있어요. 이 가치관이 트웰브랩스의 DNA가 되어 사내 문화에 자연스럽게 녹아들기를 바랍니다. 그래서 직원이 15명뿐일 때부터 ‘피플&컬처’ 팀을 구성해 건강한 조직문화 형성에 집중해왔습니다. 또 인재 채용 과정에도 상당히 공을 들이는 편이에요. 채용 프로세스를 촘촘하게 구성한 데다 직무별 현직자와의 커피챗도 포함했습니다. 커피챗은 트웰브랩스라는 조직과 잘 융화될 수 있는 사람인지 판단하는 절차예요.”

이 대표는 여러 가치관 중 ‘속도감 있는 혁신’과 뚝심을 가장 중요한 요소라고 봤다. 기술 발전 속도가 상당한 오늘날, AI 기업으로서 당연한 자세일지도 모른다. 그는 “속도감 있게 혁신하지 않으면 트웰브랩스의 존재 이유가 없다고 생각한다”며 “AI 열풍 속에서 수많은 아이템이 화제가 될 텐데 이에 휘둘리지 않고 영상 이해 AI 모델 개발에 뚝심 있게 몰입하는 자세도 중요하다”고 강조했다. 그는 “트웰브랩스는 목표 의식이 뚜렷하고 자기 동기부여 능력이 강한 사람이 모인 집단”이라고도 했다.

인터뷰 말미, 이 대표는 “트웰브랩스가 대중에게 멀티모달 영상 AI를 가장 제대로 다루는 기업으로 인식되길 바란다”며 “궁극적으로는 친인류적인 AI 기술을 제공하는 기업이 되고자 한다”고 강조했다. 하지만 향후 AI가 인류에 위협이 되리란 전 세계적인 우려도 상당하다. 이에 대해 이 대표는 “사람들이 AI를 두려워하는 건 자연스러운 현상이라 생각한다”면서도 “하지만 걱정과 두려움을 ‘스마트한 고민’으로 전환해야 한다”고 역설했다. 그는 “어떻게 하면 인류에게 이득이 되도록 AI를 활용할 수 있을지 고민하는 사회적인 논의가 선행되길 바란다”며 “트웰브랩스 역시 인간과 세상에 대한 이해의 폭을 지금보다 넓히기 위해 노력하겠다”고 힘주어 말했다.

- 노유선 기자 noh.yousun@joongang.co.kr _ 사진 최기웅 기자

202406호 (2024.05.23)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음