이유 1. 단성음악 vs. 다성음악의 구도아무리 복잡하고 치밀한 플롯에 따른 소설이라고 해도, 소설의 쓰임새는 기본적으로 모노포니, 즉 단성음악에 견줄 수 있다. 반면에 교향곡은 다성음악이다. 단성음악에는 주어진 순간에 하나의 성부만 있고 다성음악에는 복수의 성부가 있다. 소설의 한 대목을 살펴보자. “좌중의 늙은 수도사들이 모두 웃었다. 교황이 비록 위서(爲誓)의 허물을 짓기는 해도 그에게 재치 있는 구석은 있었던 모양이라고 나는 생각했다.”(움베르토 에코, 『장미의 이름』, 하, 이윤기 역, 열린책들, 2010, 527쪽).“좌중의 늙은 수도사들이 모두 웃었”던 그 시각에 젊은 수도사들은 울었다고 가정해보자. 소설은 다음과 같이 쓰일 것이다. “좌중의 늙은 수도사들이 모두 웃었던 그때 젊은 수도사들은 모두 울었다.” 내용상으로는 두 사건이 동시에 일어나지만, 쓰이기로는 수평적/연쇄적일 수밖에 없는 것이 소설이다. 합창이나 오페라 같은 음악이라면 늙은 수도사들이 즐거운 선율을 노래하는 그 순간에 젊은 수도사들은 슬픈 선율로 노래할 수 있다. 악보는 이 두 사건을 수직적 차원에서 같은 위치로 표기할 수 있다.모든 글에서는 한 칸에 한 글자 혹은 하나의 알파벳만 기재된다. 소설 쓰기는 시계열적 차원에서 알파벳이나 글자들을 질서 있게 나열하는 일이다. 소설의 시계열은 길더라도 매우 얇은 어떤 선과 같다. 하지만 교향곡에서는 다수의 선이 동시에 제시된다. 하나의 선에서는 주어진 순간에 하나의 음만 제시되지만, 그런 선 십수 개 혹은 수십 개가 서로 얽힌다. 이 얽힘은 화음이거나 독자성을 가진 선율들의 대위법적 상태다. 소설에 수평적 구도만 있다면, 교향곡에는 수평적 시간 구도와 수직적 화음/대위법 구도가 있다.그래서 소설보다 교향곡이 더 복잡하다. 더 복잡한 것을 만들어내는 일이 더 어려울 것이다. 현재 미국에서 많은 AI 작곡 서비스 회사가 문을 열고 유료 서비스를 제공하는데, 이 플랫폼들에서 오케스트라가 연주하는 듯한 느낌의 괜찮은 곡들을 들을 수 있긴 하다. 놀라운 성과지만, 십수 개 혹은 수십 개 악기가 연주하는 곡은 아니고, 그런 느낌을 주는 곡들일 뿐이다. 아직은 기계가 제대로 된 오케스트라 연주곡의 등가물을 만들지 못한다.
이유 2. 소설은 많고 교향곡은 적다.
|
이유 3. 상업적 소설 vs. 예술적 교향곡소설 중에는 도스토옙스키의 『카라마조프가의 형제들』처럼 어렵고 심오한 작품도 있지만 댄 브라운의 『다빈치 코드』나 조앤 롤링의 『해리포터』처럼 재밌는 작품도 있다. 교향곡에도 대중적인 작품들이 있던가? 소설은 사업성이 있는 장르인데 교향곡은 그게 부족하다. AI 개발자는 사업성을 고려할 것이고, 교향곡 생성 AI는 사업성이 떨어지는 아이템이다.
이유 4. 글로서의 소설 vs. 음향으로서의 교향곡챗GPT는 언어 모델(Language Model)로 소개되지만, 사실은 글 모델(Writing Model)이다. 언어는 글과 말, 표정, 손짓과 몸짓 등을 포괄하는데, 챗GPT 앞에서 사용자가 어떤 표정을 짓는지는 무의미하다.글 모델 챗GPT는 자신이 생성한 문장을 읽지 않는다. 조만간 읽는 서비스가 지원될 것이다. 그때는 지금처럼 자판으로 치지 않고 말로 할 것이다. 사용자가 말로 물어보고, AI도 말로 대답할 것이다. 이때 AI의 발음은 아주 중요한 문제는 아니다.챗GPT가 출력한 문장에 ‘강아지’라는 단어가 있다고 가정하고 ‘강아지’를 미래의 챗GPT가 발음하는 상황을 생각해보자. 이 단어는 사실 무한하게 많은 방식으로 발음될 수 있다. 사람들의 목소리가 다 다르기 때문이다.일상에서, ‘강아지’에 대한 좋은 발음과 나쁜 발음이 있겠지만, 강아지에 대한 명품 발음은 없다. 미래의 챗GPT는 ‘강아지’는 물론이고 모든 단어를 좋은 발음으로 제공하려고 노력할 것이다. 그런데 ‘강아지’에 대한 좋은 음질이 아주 대단하지는 않을 것이다. 나쁜 음질도 같은 사정일 것이다. 명품 피아노의 ‘도’와 싸구려 브랜드의 피아노가 내는 ‘도’의 음질은 얼마나 다를까. 사람들은 명품 피아노 소리에 익숙해 있어 귀의 수준이 무척 높다. ‘강아지’ 발음에 대해 깐깐하지 않고 미학을 가지지 않은 보통 사람들이 음악에서는 ‘도’나 ‘레’의 음질에 대해서 꽤 깐깐하며 고급의 미학을 가진다. 여기에는 이유가 있다. 늘 명품 피아노 소리에 노출되어 있기 때문이다. 주로 방송이나 음악 CD, 파일을 통해서.AI가 소설을 ‘쓰는’ 일에 대비되는 것이 음악에서는 교향곡을 ‘쓰는’ 일이다. 소설은 글자다. 교향곡에서는 악보 위 음표들이 글자다. 글자로서의 소설을 인공지능이 생성했다면, 일반인 사용자는 그것을 바로 읽을 수 있다. 악보로 출력된 교향곡은 일반인 사용자에게는 의미 없다. 그에게 의미 있는 것은 악보가 연주될 때의 음향이다. AI에 교향곡 악보를 생성하라는 주문이 더 어려울까, 그 악보를 연주까지 하라는 주문이 더 어려울까. 악보 출력 인공지능 플랫폼은 사업성이 떨어질 것이고, 음향으로서의 교향곡 생성 플랫폼은 사업성이 좀 있겠지만, 만들기는 어렵다. 음향으로서의 교향곡은 생생한 감각의 세계인데, 현재의 AI는 감각을 입력받지 않는다.
이유 5. 학습 데이터세트의 서로 다른 특성챗GPT 같은 대규모 언어 모델(Large Language Model)이 학습하는 데이터세트(Data Set)는 영어나 한국어 같은 자연어다. 인터넷에는 자연어의 빅데이터가 존재하며, 인공지능은 그 빅데이터 세트에 쉽게 접근할 수 있고, 또 쉽게 학습할 수 있다.음악 생성 AI는 사정이 좀 복잡하다. 일단, 인간 음악가가 읽는 오선 악보를 AI가 학습하는 경우가 무척 드물다. 미디 데이터를 학습하는 경우와 웨이브 파일을 학습하는 경우가 많다. 그런데 미디 데이터는 빅데이터가 되기에 모호한 것 같다. 분명한 빅데이터를 구성하는 웨이브 파일에는 특이한 문제가 있다.웨이브 파일은 하나의 덩어리다. 소설도 내용상 하나의 덩어리지만, 그것을 구성하는 글자와 알파벳은 원자와 같이 더는 쪼개질 수 없는 최소단위이고, 이런 단위들은 그 자체로 학습하기가 쉽다. 이런 식으로 쪼개져 있지 않은 웨이브 파일을 기계에 학습시키려면 개발자는 그것을 인위적으로 쪼개야 한다. 웨이브 파일을 쪼갠 결과로 얻어진 단위를 AI 업계에서는 ‘시멘틱 토큰(semantic token)’이라 하는데, 이 문제는 차치하더라도 이렇듯 음악 AI에는 언어 모델 AI에 없는 추가적 일감이 주어진다.
※ 김진호는… 서울대학교 음악대학 작곡과와 동 대학교의 사회학과를 졸업한 후 프랑스 파리 4대학에서 음악학으로 박사학위를 취득했다. 국립안동대학교 음악과 교수로 재직 중이며, 『매혹의 음색』(갈무리, 2014)과 『모차르트 호모 사피엔스』(갈무리, 2017) 등의 저서가 있다