세계 최초로 그래픽처리장치(GPU)를 고안한 미국 엔비디아가 아태 지역에서 유일하게 점찍은 회사가 있다. 바로 래블업이다. 누구나 인공지능기술을 쓸 수 있게 하겠다는 고집으로 독자적인 AI 개발 플랫폼과 솔루션을 내놨다.
▎신정규 대표도 “래블업이 변화무쌍한 글로벌 기술 생태계 한복판에 놓여 있기는 하지만 사실 누구나 AI를 쉽게 활용하게 하자는 취지에서 출발한 회사”라며 “지금도 모든 AI 모델 기술(머신러닝, 딥러닝)을 다루는 절차를 간소화하는 솔루션 개발에 주력하고 있다. 최근 AI 모델을 도입하려는 수요가 폭증하면서 많은 기업과 개발자가 래블업 문을 두드리고 있다”고 설명했다. |
|
세계 최초로 한국에서 저전력 프로세서인 ARM 서버 환경에서 인공지능(AI) 모델을 만들 수 있는 상업용 소프트웨어 플랫폼이 나왔다. 바로 머신러닝 플랫폼 개발 기업 래블업이 내놓은 ‘백앤드.AI(Backend.AI)’다. 기존 인텔 x86 환경에서만 구동되던 AI 개발 플랫폼을 ARM 환경에서도 돌아가게 한 것이다.먼저 반도체 시장에 대한 설명이 필요하다. 무어의 법칙(반도체의 집적회로 성능은 2년마다 두 배로 증가한다)이 흔들리며 인텔 천하가 막을 내렸다. 대신 업체들이 필요에 따라 칩을 설계해 공장에 맡기는 식으로 시장이 쪼개졌다. 칩 설계 자산(IP)과 TSMC(대만 반도체 위탁생산 기업), 삼성전자의 파운드리(반도체 위탁생산) 구조다. 여기서 IP를 쥔 곳이 바로 손정의 회장의 소프트뱅크그룹이 대주주로 있는 ARM이다. 최근 그래픽카드 시장을 과점하고 있는 엔비디아가 ARM을 인수하려다가 미국·유럽 등 규제 당국이 독과점을 이유로 반대해 무산됐고, 인텔과 SK가 눈독을 들이고 있다.ARM 인수 경쟁이 치열한 데는 이유가 있다. 반도체는 명령어 집합(ISA)에 따라 크게 인텔 x86과 ARM으로 나뉜다. 인공지능(AI), 사물인터넷(IoT), 자율주행 등 처리할 데이터는 점점 폭증하는데 인텔 CPU 기반 생태계로는 처리가 버겁다. ARM이 보유한 IP 플랫폼에서 새 반도체 생태계를 구축하면 얘기가 완전히 달라진다. 실제 업계도 변화하고 있다. 수년 전부터 아마존웹서비스(AWS)는 ‘그래비톤’이라는 서버용 ARM 칩을 만들어 클라우드 서비스에 제공했고, 2020년 말 애플은 ‘M1’이라는 ARM 칩을 탑재해 고성능 x86 CPU 모델의 성능을 가볍게 뛰어넘기도 했다.래블업의 성과가 나름대로 의미를 지니는 이유다. 지난달 서울 강남구 선릉 래블업 사무실에서 만난 신정규 대표도 “래블업이 변화무쌍한 글로벌 기술 생태계 한복판에 놓여 있기는 하지만 사실 누구나 AI를 쉽게 활용하게 하자는 취지에서 출발한 회사”라며 “지금도 모든 AI 모델 기술(머신러닝, 딥러닝)을 다루는 절차를 간소화하는 솔루션 개발에 주력하고 있다. 최근 AI 모델을 도입하려는 수요가 폭증하면서 많은 기업과 개발자가 래블업 문을 두드리고 있다”고 설명했다. 돈이 많은 기업은 인텔 x86 생태계에서 가용 서버를 늘리거나 전용 ARM 칩을 주문·생산하면 그만이지만, 작은 기업이나 연구소 입장에서는 AI 모델을 활용하려는 시도조차 어려운 게 현실이기 때문이다.
GPU 하나를 여러 개로 나눠 활용하는 기술일단 래블업의 백엔드.AI 플랫폼은 공개 소프트웨어다. 비상업용을 전제로 오픈소스 플랫폼 깃허브(Github)에 개발 플러그인을 공개하고 있다. 물론 상업용이나 재배포를 위해서는 별도의 사용 라이선스가 필요하다. 특히 딥러닝 개발에 특화된 그래픽처리장치(GPU) 가속 플랫폼으로 유명하다. 예를 들어 딥러닝 개발자가 GPU가 없는 노트북을 들고 딥러닝 AI를 개발하고 싶으면 자신의 GPU 워크스테이션이나 래블업의 클라우드 버전에 등록해 자신의 노트북에 백엔드.AI 클라이언트를 설치하기만 하면 된다. 현재 성균관대, 한양대, 국민대 등 국내 대학 5곳, 기업과 연구소 15곳에서 이 서비스를 사용 중이다. 딥러닝 AI 개발에 무한정 GPU를 늘릴 수 없는 대학이나 연구소일수록 래블업 솔루션을 선호한다. GPU를 분할·가상화하는 기술(Fractional GPU) 때문이다.고성능 GPU 하나를 가상화해 수십여 개 GPU로 나눠 여러 개의 AI 훈련을 동시에 할 수 있다. 신 대표는 “AI 개발 전용 GPU의 경우 대당 수천만원을 호가하는 탓에 기업 입장에서도 분할·가상화 기술을 활용하면 하드웨어 도입 비용을 크게 낮출 수 있다”며 “한때 암호화폐 채굴용 GPU가 세계적으로 품귀 현상이 계속되자 몇 배씩 가격이 뛰어 AI 개발진이 애를 먹은 적이 있다. 최근 가격이 안정세에 접어들었다지만, 여전히 AI 개발 전용 GPU는 가격이 잘 내려가지 않는다”고 말했다.래블업은 이 밖에도 딥러닝 모델 분산기술, 슈퍼컴퓨팅 솔루션 기술, 딥러닝 기반 바이오 연구 기술, 초저지연 AI 모델 기술 등을 보유하고 있다. 독보적인 기술력 덕분에 지난해 4월 한국 최초로 글로벌 스토리지 기업 퓨어스토리지의 AI 분야 기술협력 파트너로 선정됐다. 같은 달 아태지역 최초이자 세계에서 10번째로 ‘엔비디아 DGX 레디 소프트웨어 프로그램’ 파트너사로 선정됐고, 래블업의 솔루션인 백엔드.AI도 엔비디아의 ‘DGX-Ready 소프트웨어’로 인증받았다. 엔비디아 DGX 레디 소프트웨어라는 것은 개발한 솔루션의 성능과 신뢰성을 엔비디아가 검증했다는 의미다.올해 3월 미국에서 열린 세계 최대 AI 개발자 콘퍼런스 ‘엔비디아 GTC’에서도 ‘엔비디아 AI 엑셀러레이티드 프로그램’ 파트너사로 이름을 올렸다. 현재 이 프로그램의 파트너사에는 어도비(Adobe), 레드햇(Red Hat), VM웨어(ware) 등 전 세계 100여 개 기업이 있고, AI 플랫폼 기업으로는 국내 창업 7년 차인 래블업이 아태지역에서 유일하다. 신 대표는 “이제 백엔드.AI는 ‘초거대(Hyper-scale)’ AI까지 지원할 수 있다”며 “국내외 최대 수준의 인프라에서 검증을 마쳤고, 올해 AWS, 마이크로소프트 애저 같은 클라우드에 서비스형 소프트웨어(SaaS)를 출시해 기업형 시장에 본격적으로 뛰어들 계획”이라고 설명했다. 다음은 그와 나눈 일문일답이다.
AI 개발을 더 쉽게 하려고 창업했다고 들었다.그렇다. 2015년 공개 소프트웨어 생태계에서 만난 이들이 모여 회사를 하나 차리기로 한 게 래블업이었다. 회사 이름은 연구실·실험실을 뜻하는 ‘랩(Lab)’과 업그레이드(Upgrade)의 ‘업’을 합쳐 지었다. 모든 머신러닝·딥러닝 기술을 다루는 절차를 간소화한다는 것을 목표로 시작했다. 당시 포스텍에서 물리학과 컴퓨터공학을 전공하고 대학원에서 복잡계 뇌과학·머신러닝 분야를 공부하고 있었다. ‘텍스트큐브’라는 오픈소스 블로그 소프트웨어를 만들었는데, 여기서 김준기 CTO를 만났다.
AI 개발은 당연히 어렵다고 알고 있다. 얼마나 어렵고 복잡한가.생각보다 수작업이 많다. 머신러닝의 경우 데이터를 직접 입력해야 한다. 딥러닝은 스스로 학습할 수 있다고 하지만 AI 개발은 말 그대로 ‘삽질의 연속’이라고 봐야 한다. 연구실에서 GPU 활용 솔루션을 개발하거나 최적화하는 일을 하다가 나온 게 백엔드.AI다. 우리는 그나마 전공 분야가 AI였으니 망정이지 일반 기업이나 연구소에서 머신러닝, 빅데이터 분석에 이어 각종 연구개발, 협업, 공유, 서비스 과정까지. AI를 도입하는 게 쉬운 일이 아니다.
개발자에게 백엔드.AI는 어떤 존재인가.개발자가 AI 모델을 훈련하고 서비스까지 한 번에 해결할 수 있게 된 것이다. 게다가 이제 인프라와 사용자 기기가 인텔 x86인지 ARM인지 크게 신경 쓸 필요 없이 양 체계에서 모두 구동된다. 현재 AI 기술은 사용자 기기에서 직접 구동되는 ‘온디바이스(On-device)’ AI 기술 영역이 급격하게 성장하고 있는데 여기에도 대비할 수 있다. 만약 지금 기업에서 클라우드 시스템을 이용하고 있다면 그 위에 얹어서 AI 모델을 개발할 수도 있다. 이미 자체적으로 하드웨어를 보유한 고객도 많기 때문에 솔루션 하나 도입한다고 전체를 바꿀 수 없다. 운영 체제부터 사용자 인터페이스까지 모두 호환돼 이용할 수 있도록 설계한 이유다.
ARM 서버 환경에서 AI 모델을 만들 수 있는 소프트웨어는 ‘백엔드.AI’가 유일하지 않나. 아직 지원 기업이 많지는 않지만, 결국 기업들이 x86 체계에서 ARM 체계로 넘어갈 거란 얘기가 많다.그렇다. 생각보다 더 빠르게 (ARM 체계로) 넘어갈 듯싶다. AI를 가속화하려면 일단 전력과 네트워크, 이 두 요소가 가장 중요하다. 한국에서는 겪기 힘든 일이지만, 해외 기업의 데이터센터(IDC)는 전력 수급이 불안정해 고심을 거듭하고 있다. 네트워크도 마찬가지다. GPU를 가까이 배치하는 게 좋은데 가까이 놓으면 전력 소모가 커지고, 발열이 심해진다. 실제 전 세계적으로 A100 텐서코어 GPU를 한 랙(Rack)에 엔비디아 DGX를 네 대 이상 붙여 가동할 만한 데이터센터가 없다. 네 대 붙여 풀(Full)로 쓴다면 20㎾가 소모되는데, 통상 인터넷 서비스만 하는 데이터센터는 4㎾ 정도는 쓴다. 초저전력으로 설계를 다시 짠 ARM 체계로 넘어갈 수밖에 없다는 뜻이다. 애플이 ARM 기반으로 자체 설계한 ‘M1’, ‘M2’ 칩만 해도 인텔, AMD가 독점하는 x86 시장을 뒤흔들 정도로 성능이 더 뛰어났고, 전력 소모도 크게 줄였다.
AI 개발 플랫폼 ‘백엔드.AI’의 대표 기능으로 GPU 가상화가 나온다. 구체적으로 설명해달라.좀 더 기술적으로 설명하면 고가의 GPU를 나눠 활용하는 기능이다. 하나의 GPU 램(RAM)을 컨테이너별로 0.1GPU, 0.2GPU, 2.7GPU 등으로 나눈다. GPU 자원이 많이 필요한 사람에게는 큰 방을 주고, 교육이나 추론 워크로드처럼 비교적 적은 자원이 필요한 사람에게는 작은 방을 내주는 식이다. 큰 건물 하나를 거대한 방으로 보고 용도와 필요에 따라 제공하면 업무 효율성을 높일 수 있다. 보통은 한 개발자가 GPU를 선점하면 다른 곳에서는 이 GPU를 쓸 수 없지만 래블업은 하나의 GPU를 20여 개로 쪼개 가상화한 다음 사용자에게 제공한다.
AI 모델을 개발하기 위한 하드웨어 체계도 점점 복잡해지고 있다.과도기라고 생각한다. 새로운 기술이 나올 때마다 기존 시스템을 갈아엎을 수도 없는 노릇이다. 여러 회사의 클라우드 서비스를 쓰고 새로운 디바이스나 칩이 나오면 또 써본다. 일종의 ‘하이브리드’ 시대다. 개발자 입장에서는 회사 시스템은 인텔 x86 체계이고 개인 노트북은 ARM 기반이다. 또 회사가 새로 도입한 서버 칩이 구글 서버용 칩(텐서프로세싱유닛, TPU)를 쓴다. 이러면 어떻게 하겠나. 매번 AI 훈련용 모델을 다르게 만들 수도 없다. 게다가 최근 구글에서 자체 개발한 ‘텐서(Tensor)’ 칩을 자사 스마트폰에 탑재했다. 구글은 AI 가속기에 GPU 대신 TPU를 투입하기 시작했다.
일반 투자자들을 설득하기엔 쉽지 않았겠다.그렇다. 2017년 구글 스타트업 캠퍼스에 입주해 같은 해 카카오벤처스와 스톤브릿지로부터 시리즈A 투자를 유지했다. 그래도 당시 구글 알파고 열풍이 한차례 지나가서인지 조금 나았지만 그래도 우리 사업을 설명하기가 쉽지 않았다. 수없이 많은 IR을 진행하면서 나름대로 설명했던 비유가 떠오른다. “우리는 AI 골드러시 시대에 청바지를 파는 회사다. 없어도 금을 캐는 데 문제는 없지만, 굉장히 불편할 겁니다.”
“우리는 AI 골드러시 시대에 청바지를 파는 회사”일부 대기업들은 백엔드.AI를 다른 방법으로도 활용한다고 들었다.보안이 까다로운 대기업을 위해 내놓은 기능도 있다. 대기업의 경우 AI 모델을 개발하기 위해 여러 운영체계를 혼용한다. 하지만 보안때문에 인터넷이 아예 차단돼 있어 제때 업데이트가 이루어지지 않아 같은 시스템상에서 훈련된 AI 모델에 문제가 생길 수 있다. 실제 AI 생태계도 너무 빨리 변하다 보니 데이터 반출이나 반입이 빈번해야 하는데 회사 사정상 그럴 수 없는 경우가 많다. 우리는 백엔드.AI에 각종 프로그래밍언어나 운영체제가 요구하는 새로운 데이터 패키지를 담아서 인트라넷상에 뿌려 자동으로 업데이트되지 않은 부분만 찾아 설치해 최신 상태를 유지해준다.
엔비디아 입장에서 ‘GPU 쪼개기’를 달가워할 것 같지 않은데….정반대다. 물론 GPU 기술의 발전 속도가 매우 빨라서 보통 18개월에서 24개월 정도면 새 모델이 나올 정도로 감가상각이 심한 부품이기도 하다. PC 시장에서 GPU 가격이 떨어져도 기업이 쓰는 GPU는 상당히 고가를 유지한다. 한 대당 1000만원에서 1500만원이 훌쩍 넘는다. 기업 입장에서 이걸 100대 들이려면 최소 10억원이 드는데 2년마다 바꿔야 한다면 구매 자체를 꺼릴 수밖에 없다. 여기에 백엔드.AI가 투입되면 수명 주기가 4~5년 정도로 늘어나 가성비(가격 대비 성능)가 확 뛴다. 엔비디아도, 기업도 우리를 반기는 이유다.
기업들이 앞다퉈 AI 활용에 나서고 있다.실제 래블업도 국내외 기업들과 파트너십을 맺고 일하고 있다. 코로나19 이후 글로벌기업도 AI를 실질적으로 활용해 수익, 효율성을 높이려는 노력을 하고 있고, 국내 기업들도 AI 기반 머신러닝이나 딥러닝 서비스를 내놓으며 클라우드 서비스용 데이터센터는 GPU가 점령해버렸을 정도다. 현재 우리 국내 고객사로는 삼성전자, LG전자, KT, 롯데정보통신, CJ올리브네트웍스, LG CNS, SK 등이 있고 한국은행, 한국전자통신연구원(ETRI), 한국과학기술연구원(KIST), 한국정보통신기술협회(TTA) 등이 백엔드.AI를 사용 중이다. 사실 기존에는 연구용이나 테스트용이 많았는데, 기업들이 데이터, HPC(고성능컴퓨팅), 클라우드 분야 전문가를 모아 DX 사업본부로 각종 솔루션·서비스 개발에 나서기 시작했다. 우리는 다양한 파트너들에게 AI 개발 플랫폼과 GPU 분할 가상화 기술을 지원하고, 영업과 마케팅을 공동으로 수행하고 있다.
마지막으로 하고 싶은 말이 있다면.하고 싶은 말보다는 그간의 일이 생각난다. 창업 당시 한국은 AI 불모지였기에 우리를 바라봐주는 이들도 거의 없었다. 그러다 2016년 구글 ‘알파고 쇼크’를 받자 AI 열풍이 불기 시작했다. 너도 나도 AI 도입을 외쳤지만, 국내는 확실히 해외보다 속도가 더뎠다. 대기업이야 막강한 인프라가 있으나 이것저것 해볼 수 있지만, 작은 회사는 AI 기술이 더 막연하게 느껴졌을 거다. 비록 우리는 알파고가 등장하기 전부터 AI 솔루션을 개발한 탓(?)에 고생했지만, 누구나 AI 기술의 혜택을 누릴 수 있게 하겠다는 일념으로 달려왔다. 우리가 처음부터 지금까지 백엔드.AI를 포함한 다양한 기술을 공개SW 로 공개하는 이유다. 우리 구성원 모두는 더 많은 사람이 급변하는 기술 발전에 뒤처지지 않기를 바라며 오늘도 밤을 지새우고 있다.- 김영문 기자 ymk0806@joongang.co.kr·사진 지미연 객원기자