Life

김진호의 ‘음악과 삶’ 

챗GPT와 음악 

챗GPT 열풍이 거세다. 많은 사람의 사용 후기가 SNS에 올라오며 화제가 되고 있다. 압도적 검색엔진 구글을 대체할 거라는 예측도 있다. 빌 게이츠에 따르면 챗GPT는 인터넷의 발명만큼 중요하다. 챗GPT 혹은 챗GPT의 원리는 인간의 음악 활동에 적용될 수 있을까.

▎음악 생성 AI 시스템 ‘MusicLM’의 ‘Painting Caption Conditioning’ 기능의 사례. 자신들이 쓴 논문에서 구글 엔지니어들은 그림(Painting)에 관한 짧은 언급(caption)이 음악을 생성하는 조건적 도구(conditioning)로 작동할 수 있음을 보여주었다. / 사진:위키피디아(Theory of mind in animals)
문자 텍스트를 학습하는 대화형 언어 모델 인공지능 챗GPT

챗GPT는 미국의 인공지능 연구소 OpenAI가 개발한 인공지능이다. 데스크톱이나 노트북, 스마트폰에서 작동하는 인터넷 브라우저나 포털에서 ‘챗GPT’라고 치면 쉽게 검색된다. 검색된 챗GPT를 설치할 수 있다. 설치된 챗GPT를 열어 인간이라고 생각하고 채팅(chatting)을 할 수 있다. 한국어나 영어 같은 자연어로 뭔가를 질문하면 자동으로 답하는데, 이때 인간의 말투와 유사하다는 평이 있다. 꽤 전문적인 분야에서도 괜찮은 답을 준다.

챗GPT의 인간적 처신은 더 있다. 일단 아는 체를 많이 한다. 그러니까, 틀린 이야기를 맞는 것인 양 자신 있게 이야기하는 일이 잦다. 그 오류를 지적하면 깔끔하게 받아들이며, 미안하다고도 한다. 오류를 지적해준 사용자에게 “당신이 옳다”고 말한다. 시원시원하다. 계속 오류를 지적하면 작동을 중지하기도 한다. 이런 때는 꼭 심통을 부리는 사람 같다. 필자가 괜히 그렇게 느낀 것일 수 있다.

오류를 지적할 지식이 없는 이들에게 챗GPT는 잘못된 지식을 알려줄 수 있는 위험한 로봇이다. 이렇게 문제 많은 챗GPT가 되돌아올 수 없는 길로 인류를 인도하고 있다. 챗GPT로 상징되는 인공지능의 발전은 이미 인간이 무시할 수 없는 수준이 되었다. 앞으로의 발전을 생각하면 솔직히 두렵다. 인류의 다른 여러 과학기술 분야에서처럼, 챗GPT 같은 대화형 인공지능 분야에서 가능한 일은 결국 실현될 것이다. 이러한 ‘기술 불가피론’은 우리가 진지하게 짚어봐야 한다. ‘기술적으로 가능하다면 꼭 개발해 사회적으로 사용해야 할까?’라는 질문을 통해서.

많은 대학교수가 챗GPT가 대필한 리포트로 인해 걱정을 많이 한다는 이야기가 들린다. 대학생의 리포트에서, 자기주장과 타인의 주장을 구분해 작성하라고 요구하고, 타인의 주장을 반드시 어느 정도까지 포함하되 그 인용문의 출처를 쓰라고 요구한다면 챗GPT의 대필을 걸러낼 수 있지 않을까. 지금의 챗GPT는 인용문의 출처를 정확히 밝히지 못한다.

필자는 챗GPT에 “데카르트에 대해 알려줘”라고 입력하고 엔터를 눌렀다. 챗GPT는 데카르트에 대해 적절히 답변했다. 답변했던 내용 중 한 문장을 골라 물었다. “’나는 생각한다. 고로 존재한다.’라는 문장에 대해 더 자세히 설명해줘”라고 요청했다. 심도 있는 설명이 이어졌다. 그 문장이 적힌 책에 관해서도 설명해주었다. 챗GPT가 모른다며 미안해했던 필자의 질문이 있었다. “’나는 생각한다. 고로 존재한다.”라는 문장은 그 책의 몇 쪽에 있을까?” 필자는 이 질문을 영어와 프랑스어, 한국어로 물었고, 챗GPT는 3개 국어로 다 모른다고 했다.

무성의한 학생은 데카르트에 관해 리포트를 쓸 때 챗GPT의 여러 답변을 그대로 가지고 와서 사용할 것이다. 그의 교수가 ‘나는 생각한다. 고로 존재한다.’ 같은 타인의 주장이나 명제 등을 인용할 때 그 문장이 어느 책의 몇 쪽에 기재되어 있는지, 그 책을 출판했던 출판사의 이름은 뭔지, 언제 출판되었는지 등을 같이 적으라고 했다면? 그 학생은 챗GPT가 알려주었던 것보다 더 많은 내용을 알려고 노력할 것이다. 그 노력이 곧 공부일 수 있다.

출처를 잘 모르는 것이 기존의 검색엔진과 근본적으로 다른 방식으로 작동하는 챗GPT의 지능적 특성인 것 같다. 이 특성은 어디서 유래했을까. 챗GPT는 자기 방식으로 언어 텍스트를 ‘소화하며 학습’한다. 타인의 지식을 이제 갓 소화한, 공부 잘하는 고등학생이나 대학생은 소화하고 이해하는 일에 정신이 팔린다. 지식의 출처까지 요구하면 이 수준의 학생은 화를 낼지도 모른다. “그거 어디서 알게 되었니?” “음… 교과서에서요 당연한 거 아닌가요?” “음… 선생님(교수님)이 그렇게 말씀하셨어요. 그거면 된 거 아닌가요?” 사실은 교과서가 아닌 다른 저작이 출처이며, 선생님이 아닌 다른 이가 한 말이다. 챗GPT는 현재 이 수준이 아닐까.

챗GPT는 학습하기에 그 역량을 사람들은 ‘지능’이라고 부른다. 인간이 아닌 존재의 지능이니 ‘인공지능’이라고 부르는 것이다. 챗GPT의 학습은 구글 데이터베이스에는 없는 인공신경망을 통한다. 구글 같은 업체의 검색엔진은 언어 텍스트든 뭐든 학습하지 않는다. 구글 같은 업체는 직원들이 자료들을 열심히 찾은 후 검색하기 쉽게 정리/체계화한다. 그런 바탕 위에서 검색을 잘한다. 검색 결과를 읽고 학습해 이해하는 것은 인간의몫이다. 챗GPT에서 인간은 자료들을 학습하고 이해했던 지능적 존재와 마주친다.

비언어 자료로서의 음악파일

인간은 여러 대상을 학습하고 이해한다. 학습/이해의 대상들은 여러 형태로 표현된다. 문장이나 수식 등이 이해의 대상으로 가장 쉽고 분명해 보이는 표현들이다. 문장이나 문단, 더 나아가 어떤 책이나 논문, 기사의 내용 전체는 그것들을 접한 이가 이해했는지 아닌지를 판단하기가 상대적으로 쉽다. 챗GPT가 수학 문제도 좀 풀고 국어 문제와 영어 문제도 푸는 것은 챗GPT가 문장과 수식을 이해했기 때문이다.

이런 이해 능력을 갖춘 챗GPT에게 “베토벤의 [운명 교향곡]에 대해 알려줘”라고 물으면 꽤 괜찮은 대답을 들려준다. 그런데 챗GPT에게 “베토벤의 [운명 교향곡] 1악장 첫 음은 무슨 음이지?”라고 질문하면 오류를 보였다. 다른 곡에서도 마찬가지였다. 베토벤의 [운명 교향곡]에 대한 텍스트는 많고, 챗GPT는 그 많은 텍스트를 열심히 학습했을 것이다. 그런데 [운명 교향곡]1악장의 첫 음이 솔이라는 사실을 거론하는 텍스트는 많지 않거나 없나 보다. [운명 교향곡]보다 덜 유명한 작품들의 첫 음이 무슨 음인지, 셋째 음은 뭔지, 그 음들을 어떤 악기들이 연주하는지 등에 대해 거론하는 텍스트 역시 많지 않거나 없나 보다. 사실은 전혀 없지는 않다. 음악학자가 [운명 교향곡] 등을 분석한 논문이나 책을 찾아보면 관련 문구가 있을 것이다. 챗GPT는 그런 문구를 다 기억하지 못하는 걸까?

음악가들에게 텍스트는 책이나 논문뿐이 아니다. 그들에게 가장 중요한 텍스트는 악보다. 챗GPT는 악보를 공부하지 않았다. 그러니 “쇼팽의 [피아노 협주곡 2번]에서 피아노 파트 17번째 마디의 두 번째 음이 뭐지?”와 같은 질문에는 우매한 모습을 보일 것이다. 챗GPT는 음악에 관한 문장들은 학습하나, 인터넷상의 악보나 음악파일은 학습하지 않는다.

인터넷은 엄청나게 많은 음원, 즉 음악파일의 바다다. 이 파일들을 분류하는 기술은 ‘음악정보검색(MIR: Music Information Retrieval)’이라는 분야에서 발달했다. 이 기술이 발전하면서 유튜브와 같은 플랫폼이나 인터넷상의 프로그램이 소비자에게 음악을 추천해줄 수 있게 되었다.

음악정보검색 기술이 구현된 플랫폼이나 프로그램에서 챗GPT처럼 대화를 주고받으며 음악을 추천받는 일이 가능할까? 챗GPT에서 대화가 되면 음악 플랫폼이나 프로그램에서도 대화할 수 있다. 그런 곳에서 “비가 오는 날에 어울리는 음악 좀 추천해줘!”라고 말하거나 쓰면 그런 분위기에 어울리는 음악을 추천해준다. 이런 추천의 기저에는 어떤 음악이 비 오는 날에 어울리는지, 어떤 음악은 눈 오는 날에 어울리는지, 어떤 음악이 슬픈지, 어떤 음악이 경쾌한지 등의 기준들로 음악을 분류하는 기술, 즉 음악정보검색(MIR) 기술의 발달이 있다.

이 기술의 기저에도 (챗GPT에서 사용되는) 언어 모델 인공지능이 있다. 언어 모델 인공지능에 결합한 음악정보검색 기술을 구현한 몇몇 플랫폼이나 프로그램에서 인간 소비자는 질문하고 플랫폼이나 프로그램은 결과물을 추천한다. 이런 플랫폼이나 프로그램의 사용자는 검색자가 아니다. 그는 물론 자판을 두들길 수 있다. 더 나아가 말을 하거나 노래를 부를 수도 있다. 노래 혹은 음향도 자판을 두드려 쓴 단어들처럼 질의어가 될 수 있기 때문이다. 이런 플랫폼이나 프로그램은 음악을 분류하고 추천하기 위해서 음악파일을 학습해야 한다.

챗GPT가 음악파일을 학습하게 될까? 그렇게 될 것이다. 시간과 자본의 문제일 뿐이다. 챗GPT가 아닌, 덜 유명한 서비스 업체지만 음악파일을 학습하는 인공지능을 보유한 곳이 이미 있다. 그런 인공지능은 음악을 분류하고 추천하는 걸 넘어, 고객의 요구에 맞게 음악을 ‘생성(generation)’하기도 한다. 사실 챗GPT 개발자들도 챗GPT가 답변을 ‘생성’했다고 말한다(챗GPT에서 G는 Generative의 머리글자이다). “데카르트에 대해 알려줘”라고 물으면 그 질문에 따라 챗GPT가 답변을 생성하듯이, 인공지능의 음악 생성 역시 소비자의 언어에 따른다. 두 영역은 같은 언어 모델과 원리를 공유한다.

겉으로 드러난 모습은 조금 다르다. “비 오는 날에 맞는 분위기의 음악을 추천해줘”라는 문장을 입력하면 그런 음악을 추천해주었다. 그리고 이제, “아케이드게임의 주요 사운드트랙으로서, 업비트이고 이상한 기타 반주를 가지며, 반복적이고 기억하기 쉬운 리듬의 음악. 심벌 크래시(crash)처럼 가끔 기대하지 않은 소리가 있는 음악을 만들어줘”라고 입력하면 실제로 그런 음악을 추천해주거나, 아예 생성해준다. ‘MusicLM’이라는 인공지능 프로젝트가 보여준 놀라운 성과다. MusicLM은 챗GPT가 멈춘 곳에서 언어 모델 인공지능의 성과를 보여준다. 구글이 만든 MusicLM은 아직 상용화되지 않았다.

※ 김진호는… 서울대학교 음악대학 작곡과와 동 대학교의 사회학과를 졸업한 후 프랑스 파리 4대학에서 음악학으로 박사학위를 취득했다. 국립안동대학교 음악과 교수로 재직 중이며, 『매혹의 음색』(갈무리, 2014)과 『모차르트 호모 사피엔스』(갈무리, 2017) 등의 저서가 있다.

202303호 (2023.02.23)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음