Life

김진호의 ‘음악과 삶’ 

AI로 교향곡 작곡하기가 AI로 소설 쓰기보다 어려운 다섯 가지 이유 

챗GPT는 수필과 보고서를 그럴듯하게 써준다. 논문과 장편소설도 써주긴 하지만, 보고서나 수필보다는 완성도가 좀 떨어진다. 인간과 인공지능 모두 수필보다 소설 쓰기가 더 어려울까? 인공지능(이하 AI)은 소설 쓰기와 교향곡 작곡하기 중 무엇을 더 어려워할까? 두 작업을 AI에 시킨다고 할 때, 어느 쪽에서 성과가 더 좋을까. 지금까지는 소설 쪽이 성과가 더 좋다.

▎네덜란드 레이덴(Leiden)시에 있는 한 건물 외벽에 적힌 윌리엄 셰익스피어의 [소네트 30](Sonnet 30). 다른 모든 시와 마찬가지로 맨 위 줄 왼쪽의 첫 단어(When)부터 읽는다. 읽는 순서는 오른쪽이며 한 줄을 다 읽으면 그 아래 줄을 읽는다. 너무나 뻔한 이야기지만, 시나 소설, 보고서나 논문에서는 이처럼 주어진 순간에 한 단어만 읽는다. 교향곡 악보와 사정이 다르다. 레이덴에는 110개 이상의 서로 다른 언어로 쓰인 시(詩)가 도심의 여러 건물 외벽에 적혀 있다. / 사진:위키피디아
미국에서는 챗GPT가 쓴 소설들이 이미 출판되었다. 슈베르트의 [미완성 교향곡]에서 미완성된 부분을 AI에 맡겨서 완성한 경우는 있지만, 완전히 새로운 교향곡을 AI가 처음부터 쓴 예는 없다. 왜 그럴까? 필자의 직관에 기초한 이유를 정리해보았다.

이유 1. 단성음악 vs. 다성음악의 구도

아무리 복잡하고 치밀한 플롯에 따른 소설이라고 해도, 소설의 쓰임새는 기본적으로 모노포니, 즉 단성음악에 견줄 수 있다. 반면에 교향곡은 다성음악이다. 단성음악에는 주어진 순간에 하나의 성부만 있고 다성음악에는 복수의 성부가 있다. 소설의 한 대목을 살펴보자. “좌중의 늙은 수도사들이 모두 웃었다. 교황이 비록 위서(爲誓)의 허물을 짓기는 해도 그에게 재치 있는 구석은 있었던 모양이라고 나는 생각했다.”(움베르토 에코, 『장미의 이름』, 하, 이윤기 역, 열린책들, 2010, 527쪽).

“좌중의 늙은 수도사들이 모두 웃었”던 그 시각에 젊은 수도사들은 울었다고 가정해보자. 소설은 다음과 같이 쓰일 것이다. “좌중의 늙은 수도사들이 모두 웃었던 그때 젊은 수도사들은 모두 울었다.” 내용상으로는 두 사건이 동시에 일어나지만, 쓰이기로는 수평적/연쇄적일 수밖에 없는 것이 소설이다. 합창이나 오페라 같은 음악이라면 늙은 수도사들이 즐거운 선율을 노래하는 그 순간에 젊은 수도사들은 슬픈 선율로 노래할 수 있다. 악보는 이 두 사건을 수직적 차원에서 같은 위치로 표기할 수 있다.

모든 글에서는 한 칸에 한 글자 혹은 하나의 알파벳만 기재된다. 소설 쓰기는 시계열적 차원에서 알파벳이나 글자들을 질서 있게 나열하는 일이다. 소설의 시계열은 길더라도 매우 얇은 어떤 선과 같다. 하지만 교향곡에서는 다수의 선이 동시에 제시된다. 하나의 선에서는 주어진 순간에 하나의 음만 제시되지만, 그런 선 십수 개 혹은 수십 개가 서로 얽힌다. 이 얽힘은 화음이거나 독자성을 가진 선율들의 대위법적 상태다. 소설에 수평적 구도만 있다면, 교향곡에는 수평적 시간 구도와 수직적 화음/대위법 구도가 있다.

그래서 소설보다 교향곡이 더 복잡하다. 더 복잡한 것을 만들어내는 일이 더 어려울 것이다. 현재 미국에서 많은 AI 작곡 서비스 회사가 문을 열고 유료 서비스를 제공하는데, 이 플랫폼들에서 오케스트라가 연주하는 듯한 느낌의 괜찮은 곡들을 들을 수 있긴 하다. 놀라운 성과지만, 십수 개 혹은 수십 개 악기가 연주하는 곡은 아니고, 그런 느낌을 주는 곡들일 뿐이다. 아직은 기계가 제대로 된 오케스트라 연주곡의 등가물을 만들지 못한다.

이유 2. 소설은 많고 교향곡은 적다.


▎구스타프 말러의 교향곡 2번 [부활]의 한 부분: 오른쪽이 시간의 방향이고 위아래는 여러 악기의 파트가 배치되어 있다. 수직의 축에서 같은 차원에 있는 음들은 동시에 연주된다. 이러한 동시성은 소설의 내용에는 있지만, 소설이 쓰인 외적 방식에서는 찾을 수 없다. / 사진:위키피디아
딥러닝 인공지능은 대량의 데이터를 학습한다. 소설 영역에는 쉽게 구할 수 있고 학습할 수 있는 대량의 데이터가 있지만, 교향곡 영역에는 소설 영역만큼의 데이터가 없다. 교향곡은 18~19세기에 많이 쓰였으며, 지금은 쓰는 이가 매우 적다. 소설은 18세기 이전에도 많이 쓰였고 지금도 많이 쓰인다. 오늘날, 한 해 세계에서 약 44만 개에 이르는 픽션(fiction) 부문 책이 출판된다고 한다. 소설에 견줄 만큼 많이 창작되는 음악은 대중가요나 2~3분짜리 드라마용, 블로그용 배경음악이다. 짧은 음악을 성공적으로 만드는 AI는 교향곡을 만들지 못할 것이다. 서로 다른 일이기 때문이다. 교향곡은 단순히 짧은 대중가요 여러 곡을 연결한 것이 아니다. 소설은 대중적이라고 하더라도 긴 편이다. 배울 게 많은 곳에 더 많은 배움이 있고, 그에 따라 더 많은 생산이 있는 것은 인간에게서나 기계에서나 같다.

이유 3. 상업적 소설 vs. 예술적 교향곡

소설 중에는 도스토옙스키의 『카라마조프가의 형제들』처럼 어렵고 심오한 작품도 있지만 댄 브라운의 『다빈치 코드』나 조앤 롤링의 『해리포터』처럼 재밌는 작품도 있다. 교향곡에도 대중적인 작품들이 있던가? 소설은 사업성이 있는 장르인데 교향곡은 그게 부족하다. AI 개발자는 사업성을 고려할 것이고, 교향곡 생성 AI는 사업성이 떨어지는 아이템이다.

이유 4. 글로서의 소설 vs. 음향으로서의 교향곡

챗GPT는 언어 모델(Language Model)로 소개되지만, 사실은 글 모델(Writing Model)이다. 언어는 글과 말, 표정, 손짓과 몸짓 등을 포괄하는데, 챗GPT 앞에서 사용자가 어떤 표정을 짓는지는 무의미하다.

글 모델 챗GPT는 자신이 생성한 문장을 읽지 않는다. 조만간 읽는 서비스가 지원될 것이다. 그때는 지금처럼 자판으로 치지 않고 말로 할 것이다. 사용자가 말로 물어보고, AI도 말로 대답할 것이다. 이때 AI의 발음은 아주 중요한 문제는 아니다.

챗GPT가 출력한 문장에 ‘강아지’라는 단어가 있다고 가정하고 ‘강아지’를 미래의 챗GPT가 발음하는 상황을 생각해보자. 이 단어는 사실 무한하게 많은 방식으로 발음될 수 있다. 사람들의 목소리가 다 다르기 때문이다.

일상에서, ‘강아지’에 대한 좋은 발음과 나쁜 발음이 있겠지만, 강아지에 대한 명품 발음은 없다. 미래의 챗GPT는 ‘강아지’는 물론이고 모든 단어를 좋은 발음으로 제공하려고 노력할 것이다. 그런데 ‘강아지’에 대한 좋은 음질이 아주 대단하지는 않을 것이다. 나쁜 음질도 같은 사정일 것이다. 명품 피아노의 ‘도’와 싸구려 브랜드의 피아노가 내는 ‘도’의 음질은 얼마나 다를까. 사람들은 명품 피아노 소리에 익숙해 있어 귀의 수준이 무척 높다. ‘강아지’ 발음에 대해 깐깐하지 않고 미학을 가지지 않은 보통 사람들이 음악에서는 ‘도’나 ‘레’의 음질에 대해서 꽤 깐깐하며 고급의 미학을 가진다. 여기에는 이유가 있다. 늘 명품 피아노 소리에 노출되어 있기 때문이다. 주로 방송이나 음악 CD, 파일을 통해서.

AI가 소설을 ‘쓰는’ 일에 대비되는 것이 음악에서는 교향곡을 ‘쓰는’ 일이다. 소설은 글자다. 교향곡에서는 악보 위 음표들이 글자다. 글자로서의 소설을 인공지능이 생성했다면, 일반인 사용자는 그것을 바로 읽을 수 있다. 악보로 출력된 교향곡은 일반인 사용자에게는 의미 없다. 그에게 의미 있는 것은 악보가 연주될 때의 음향이다. AI에 교향곡 악보를 생성하라는 주문이 더 어려울까, 그 악보를 연주까지 하라는 주문이 더 어려울까. 악보 출력 인공지능 플랫폼은 사업성이 떨어질 것이고, 음향으로서의 교향곡 생성 플랫폼은 사업성이 좀 있겠지만, 만들기는 어렵다. 음향으로서의 교향곡은 생생한 감각의 세계인데, 현재의 AI는 감각을 입력받지 않는다.

이유 5. 학습 데이터세트의 서로 다른 특성

챗GPT 같은 대규모 언어 모델(Large Language Model)이 학습하는 데이터세트(Data Set)는 영어나 한국어 같은 자연어다. 인터넷에는 자연어의 빅데이터가 존재하며, 인공지능은 그 빅데이터 세트에 쉽게 접근할 수 있고, 또 쉽게 학습할 수 있다.

음악 생성 AI는 사정이 좀 복잡하다. 일단, 인간 음악가가 읽는 오선 악보를 AI가 학습하는 경우가 무척 드물다. 미디 데이터를 학습하는 경우와 웨이브 파일을 학습하는 경우가 많다. 그런데 미디 데이터는 빅데이터가 되기에 모호한 것 같다. 분명한 빅데이터를 구성하는 웨이브 파일에는 특이한 문제가 있다.

웨이브 파일은 하나의 덩어리다. 소설도 내용상 하나의 덩어리지만, 그것을 구성하는 글자와 알파벳은 원자와 같이 더는 쪼개질 수 없는 최소단위이고, 이런 단위들은 그 자체로 학습하기가 쉽다. 이런 식으로 쪼개져 있지 않은 웨이브 파일을 기계에 학습시키려면 개발자는 그것을 인위적으로 쪼개야 한다. 웨이브 파일을 쪼갠 결과로 얻어진 단위를 AI 업계에서는 ‘시멘틱 토큰(semantic token)’이라 하는데, 이 문제는 차치하더라도 이렇듯 음악 AI에는 언어 모델 AI에 없는 추가적 일감이 주어진다.

※ 김진호는… 서울대학교 음악대학 작곡과와 동 대학교의 사회학과를 졸업한 후 프랑스 파리 4대학에서 음악학으로 박사학위를 취득했다. 국립안동대학교 음악과 교수로 재직 중이며, 『매혹의 음색』(갈무리, 2014)과 『모차르트 호모 사피엔스』(갈무리, 2017) 등의 저서가 있다

202304호 (2023.03.23)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음