특종.심층취재

Home>월간중앙>특종.심층취재

[밀착취재] AI 진화의 끝은? 창작 영역 뛰어든 카카오브레인 생성모델팀 

“중요한 건 ‘생각하지 못한 물음’… 실리콘밸리 넘는 그날까지 혁신할 것” 

최현목 월간중앙 기자
언어·이미지 학습하는 AI 시인 ‘시아’, 아티스트 ‘칼로’ 주목
범용성 높이는 작업에 한창, “다양한 부가가치 창출하고파”


▎카카오브레인 소속 ‘칼로(Karlo)’와 ‘코지피티(KoGPT)’ 생성모델팀은 ‘생각하지 못한 물음(Unthinkable Question)’을 모토로 창의적 시도를 꾸준히 이어가고 있다.
2022년 9월 미술계를 발칵 뒤집어놓은 사건이 하나 있었다. 미국 콜로라도 주립 박람회 미술대회에서 게임 기획자인 제이슨 M. 앨런이 내놓은 작품 [스페이스 오페라 극장]이 디지털아트 부문 1위를 차지한 것이다. 논란이 된 건 이 작품이 텍스트를 입력하면 단 몇 초 만에 이미지를 생성하는 인공지능(AI) 프로그램 ‘미드저니’로 만들어졌기 때문이다.

예술계에서는 과연 제이슨 앨런의 작품을 창작물로 봐야 할지를 두고 지금도 갑론을박을 벌이고 있다. AI 작품은 인간이 그린 이미지를 변형·조합하는 것에 불과하다는 쪽과, 변형·조합이라도 사용자가 상상하던 것을 표현해냈다는 점에서 창작물로 봐야 한다는 쪽이 팽팽히 맞선다. 찬반이야 어찌 됐든 이 사건은 AI 기술이 인간의 고유한 영역으로 여겨졌던 ‘창작’에 도전하기 시작했다는 점 때문에 큰 충격을 줬다.

1만3000여 편 시 읽고 작법 배워


▎카카오브레인은 인공지능(AI) 시인 ‘시아(SIA)’를 통해 지난해 8월 첫 번째 시집 [시를 쓰는 이유]를 출간했다. / 사진:카카오브레인
우리나라에서도 AI 작품이 대중에게 공개돼 화제가 된 바 있다. 카카오의 AI 전문 자회사 카카오브레인(대표 김일두)의 AI 시인 ‘시아(SIA)’와 AI 아티스트 ‘칼로(Karlo)’에 의해서다. 지난해 8월 카카오브레인은 시아의 첫 번째 시집 [시를 쓰는 이유]를 출간했다. 인터넷 백과사전, 뉴스 등을 읽으며 한국어를 공부하는 시아는 약 1만3000여 편의 시를 읽고서 작법을 배워 시를 쓸 수 있게 됐다.

시아는 카카오브레인의 ‘코지피티(KoGPT)’를 기반으로 만들어졌다. 코지피티는 한국어를 사전적, 문맥적으로 이해하고 이용자가 원하는 결괏값을 보여주는 초거대 AI 언어 모델이다. 초거대 AI는 대용량 데이터를 스스로 학습해 인간처럼 종합적 추론이 가능한 차세대 AI를 뜻한다. 최근 산업계와 학계에서 가장 관심을 두는 영역이기도 하다.

코지피티는 주어진 문장의 긍정과 부정 판단, 긴 문장 한 줄 요약, 문장을 추론해 결론 예측, 질문하면 문맥을 이해해 답변하는 등 언어를 가지고 활용할 수 있는 모든 과제를 수행한다. 이 때문에 산업계에서의 활용도는 무궁무진하다고 해도 과언이 아니다. 맥락에 따라 자동으로 글쓰기가 가능해지기 때문이다. 카카오브레인은 이 모델을 시뿐만 아니라 광고 카피 작성과 소비자 상담 등 언어를 활용한 다양한 서비스로 확장해나갈 계획이다.

칼로는 지난해 6월 현대미술가 고상우와의 공동작업으로 ‘Forever Free: 그러므로 나는 동물이다(The Animal That Therefore I Am)’ 전시회, 지난해 12월 극사실주의 화가 두민과의 협업으로 ‘칼로의 순간(Karlo’s Moment)’ 전시회를 각각 열었다.

칼로는 카카오브레인의 초거대 AI 멀티모달(Multimodal) 이미지 생성 모델 ‘민달리(minDALL-E)’와, 민달리의 업그레이드 버전인 ‘알큐-트랜스포머(RQ-Transformer)’를 기반으로 재탄생한 AI 아티스트다. 멀티모달은 텍스트 외에도 이미지, 비디오, 생체신호 등을 동시에 받아들이고 학습하는 것을 말한다. 다양한 형태의 데이터를 기반으로 새로운 결과물을 만들어낸다는 점에서 인간의 뇌가 작동하는 방식과 유사하다고 할 수 있다. 1억8000만장 규모의 텍스트-이미지 데이터셋을 학습한 칼로는 사용자가 입력한 텍스트의 문맥을 이해해 다양한 화풍과 스타일로 표현한다.

칼로와 협업한 작가의 입을 통해 그 성능이 어느 정도인지 가늠할 수 있다. 고상우 작가는 “‘부자 호랑이’, ‘가난한 호랑이’와 같이 추상적인 텍스트를 줘도 칼로는 그 언어를 어느 정도 이해하는 모습을 보여줬다”며 “칼로를 보조자가 아닌 작업 파트너로 생각하고 작업했다. 칼로는 스스로 창작할 수 있는 능력을 갖추고 있었다”고 설명했다.

이미지-텍스트 간 관계 이해


▎카카오브레인 생성모델팀원 가운데 한 명이 지난해 11월 30일 AI 아티스트 ‘칼로’를 시연해 보이고 있다.
경기도 성남시 판교에 위치한 카카오브레인 사무실에서 칼로의 성능을 직접 눈으로 확인할 수 있었다. 특히 놀라웠던 건 텍스트를 입력하지 않아도 칼로가 기준이 되는 이미지를 기반으로 자신이 스스로 여백을 채워가는 모습이었다. 예를 들어 기준이 되는 이미지가 ‘우주’라면 칼로는 사용자가 지정하는 범위까지 우주와 관련한 이미지로 무한히 여백을 채워나갔다. 이미지 간 이질감은 찾아볼 수 없었다. 그러다 사용자가 우주에 지구를 넣고 싶다면 텍스트로 ‘earth’를 입력하면 된다. ‘earth’가 지구 외에 땅, 지면이라는 뜻도 있음에도 칼로는 정확히 우주에 지구를 그려냈다. 이는 칼로가 학습을 통해 이미지-텍스트 간 관계를 정확히 이해한다는 뜻이다.

카카오브레인 생성모델팀은 칼로를 어떻게 학습시켰을까? 김세훈 카카오브레인 리서치 디렉터는 “의미 있는 학습이 되도록 하기 위해서는 고품질의 이미지-텍스트 데이터셋이 최소 수억 개 이상은 필요하다”며 “카카오브레인 생성모델팀이 인터넷에 있는 수많은 데이터를 수집하고 정제하는 데만 1년이 걸렸다”고 말했다.

칼로가 데이터를 학습한다고 과정이 끝나는 게 아니다. 김 리서치 디렉터는 “최상의 학습이 되도록 다양한 구조로 테스트해 이상적인 조합을 찾아야 했다”며 “이미지 생성 시간을 최대한 줄여 사용자 편의성을 높이는 데도 힘썼다. 이를 통해 ‘비 디스커버’(B^ DISCOVER) 서비스는 순식간에 이미지 여러 장을 생성할 수 있게 됐다”고 밝혔다. ‘비 디스커버’는 칼로를 활용한 이미지 생성·공유 애플리케이션이다.

그렇다면 언어 모델은 어떻게 학습하는 걸까? 시아의 모델인 코지피티 개발에 힘쓴 이민영 카카오브레인 사업개발팀 매니저는 “AI 모델이 주어진 문장을 보고 다음 문장을 만들어내는 패턴을 학습한다”며 “그러기 위해 수많은 작품을 입력해 데이터를 쌓게 했고, 그 결과 주제어의 맥락을 이해하는 단계까지 올라왔다”고 했다.

연구·개발자의 눈으로 봤을 때 현시점 AI 모델의 작품은 창작일까, 아닐까? 개발자들은 창작이라는 단어의 정의에 따라 달라지겠지만, 아직은 창작보다는 사용자에게 영감을 주는 보조적 역할에 가깝다고 입을 모았다. AI가 자의식을 갖고 새로운 것을 만들어내는 것이 아닌, 기존의 것을 조합해 변형하는 단계이기 때문이라고 했다.

김 리서치 디렉터는 “예를 들어 피카소처럼 AI 모델이 새로운 화풍을 만들어낸다면 이는 창작일 수 있다. 하지만 아직 AI 모델이 자의식을 갖고 새로운 화풍을 만들 수는 없다”며 “사용자 역량에 따라 AI 모델이 만드는 작품의 품질 차이가 있다. AI 모델의 성능이 아직은 인간의 능력에 좌우된다는 걸 의미한다”고 설명했다.

창작과 관련해서는 이미지 AI 모델보다는 언어 모델 쪽에서의 연구가 더욱 활발하다. 이민영 매니저는 “기존 창작물을 기반으로 마치 사람이 쓴 것처럼 뒤에 문장을 그럴듯하게 완성해가는 단계이기 때문에 데이터 의존적”이라며 “이 틀을 깨기 위해 전 세계에서 시도하고 있지만 아직은 그 방법이 나오지 않았다”고 했다.

“10억 명에게 영향 주는 기업”을 향해


▎카카오브레인이 AI 아티스트 ‘칼로’의 성능을 높여 응용프로그램 인터페이스(API) 형태로 공개했다고 1월 9일 밝혔다. 사진은 ‘칼로’로 생성한 토끼 이미지. / 사진:카카오브레인
카카오브레인 생성모델팀은 독자적인 기술을 내놓을 정도로 최근 장족의 발전을 이뤄냈다. 칼로의 모델인 민달리가 미국의 인공지능 개발 기업 오픈 AI(OpenAI)의 ‘달리(DALL-E)’를 재현한 것에 가까웠다면, 업그레이드된 알큐-트랜스포머는 카카오브레인만의 독자적인 기술로 만들어졌다는 평가를 받는다. 알큐-트랜스포머는 민달리보다 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상했다. 이러한 기술의 우수성을 인정받아 지난해 6월에 열린 세계적인 학술대회 ‘CVPR 2022’에서 그 성능이 발표되기도 했다.

생성모델팀은 올해 더 큰 도약을 약속했다. 지속적인 업그레이드로 AI 모델의 안정성을 높이는 것은 물론, 보다 많은 사람이 유의미하게 사용하도록 범용성을 높이는 작업에 한창이다. 이를 토대로 결국 다양한 부가가치가 창출될 수 있는 시장을 개척하고 싶다고 밝혔다. 쉽게 말해 “10억 명이 넘는 인류에게 영향을 주는 기업이 되자”는 것이 그들의 목표다.

이를 위해 카카오브레인은 최대한 많은 사람이 이용할 수 있도록 자사 AI 모델을 대중에게 잇따라 공개하고 있다. 2022년 10월 코지피티를 오픈 응용프로그램 인터페이스(API) 형태로 공개한 데 이어, 최근 칼로의 API·체험판 역시 내놨다. 크리에이터, 디자이너, 예술 작가 등 개인은 물론, 스타트업 기업이 신규 브랜드 로고를 만들어야 할 때, 단체가 포스터를 디자인해야 할 때 영감을 얻는 도구로 쓰일 수 있다. 여기서 그치지 않고 카카오브레인은 추가적인 데이터셋 학습과 함께, 다양한 기능을 추가하며 모델의 성능을 지속 고도화해나갈 계획이라고 밝혔다.

분명 아직 넘어야 할 산은 많다. 현실적으로 세계 유수 기업의 기술에 미치지 못하는 점 또한 사실이다. 카카오브레인과 같은 우리나라 AI 기업이 빠른속도로 추격하고 있지만, 마이크로소프트·구글·페이스북 등과 비교해 투자액 규모 차이가 크다. 미국 실리콘밸리 그룹이 AI 분야를 선도하는 이유다.

과연 규모의 경제 차이를 극복하기 위해서는 어떻게 해야 할까. 여러 방법이 있겠지만, 카카오브레인은 그 해답을 ‘생각하지 못한 물음(Unthinkable Question)’에서 찾으려고 한다. 2017년 2월 설립된 카카오브레인은 사람의 라이프스타일을 변화시킬 AI 기술 기반의 제품과 서비스를 개발해 모두가 더 나은 삶을 살 수 있도록 혁신을 불러일으키자는 모토로 설립됐다.

김세훈 리서치 디렉터는 “실리콘밸리 그룹과 똑같은 방식으로 해서는 절대 그들을 이길 수 없다고 생각한다”며 “카카오브레인을 포함한 우리나라 기업의 수많은 연구·개발자와 학자들이 실리콘밸리 그룹보다 더욱 창의적인 것을 만들어내고자 여러 시도를 하고 있다. 현재 진행 중인 창의적 시도 가운데 몇 가지는 성공할 것이라 기대한다”고 힘줘 말했다.

- 글 최현목 월간중앙 기자 choi.hyunmok@joongang.co.kr / 사진 지미연 객원기자

202302호 (2023.01.17)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음