[한세희의 테크&라이프] 인공지능이 詩를 쓰고 코딩도 하는 시대

인종·성 차별도 배운 AI…잘못 고치고, 가치관 판단은 인간의 일

유명 작가들이 취업 면접을 본다면 그 경험을 어떻게 쓸까? 인터넷에는 이런 유머가 돌아다닌다.

소설가 김훈이라면 이렇게 썼을 것이다. “처음 이력서를 냈을 때를 기억한다. 온갖 쓰레기 같은 이력서 잡동사니 속에 섞여진 내 이력서의 꼴을 수 없이 보아왔다…(중략) 몸속에 깊이 박혀 있기라도 하는 버릇처럼 자소서를 써 내려간다.”

파울로 코엘료라면 이렇게 쓸 것 같다. “마리아에게 소개받은 이 직장을 위해서 내가 무엇을 할 수 있을까 생각해 보았다. 아니, 무엇보다도 마리아에게 보답하고 싶은 마음이 더욱 컸다. 나는 어제 성 안토니오 성화 앞에서 반드시 이 직장에서 성공해 보리라 맹세했다. 그녀를 위해서라면 이곳에서 밑바닥부터 열심히 해 볼 작정으로 그렇게 애를 태우며 어제 하루를 보냈다.”

이 외에도 무라카미 하루키, 공지영, 조앤 롤링 등 여러 작가들 특유의 문체와 분위기를 살려 이들의 면접 경험담을 그럴 듯하게 써 놓았다. 한번 웃고 넘어가면 그만인 인터넷 유머지만, 사실 여러 작가들의 글을 많이 읽고 그들의 특징을 추려낸 후, 문맥과 상황에 맞춰 재구성하는 능력이 있어야 가능한 수준 높은 유머이기도 하다. 인공지능 시대에도 인간이 여전히 자리를 지킬 수 있다는 믿음은 이런 인간 특유의 능력에 대한 기대 때문이다. 하지만 최근 인공지능 기술의 발전 속도는 우리의 예상을 뛰어넘는다.

사람보다 더 글을 잘 쓰는 인공지능

미국의 인공지능 연구기관 오픈AI가 최근 공개한 인공지능 텍스트 생성기 ‘GPT-3’가 인공지능 분야에서 화제다. GPT-3는 머신 러닝 기반의 자연어 처리 모델이다. 몇 개의 단어나 문장을 입력하면 이를 바탕으로 다음에 나올 적절한 문장이 무엇일지 예측해 제시한다.

인터넷에서 긁어 온 4990억 개의 텍스트 데이터를 바탕으로 1750억 개의 매개 변수로 학습이 이뤄졌다. 매개 변수란 입력값을 바탕으로 원하는 출력값을 얻기 위해 인공지능이 찾아내야 하는 변수를 말한다. 인공지능 알고리즘이 찾는 답이라 할 수 있다.

오픈AI는 소수의 신청자에게 GPT-3를 공개했고, 얼마 안 있어 인터넷에는 이들 초기 사용자들의 놀라움에 찬 사용 후기가 쏟아져 나왔다. 독일의 미래학자는 신과 존재에 대한 철학적 대화를 인공지능과 나누었다.

사람: 그렇다면, 신은 어디에 있지?
인공지능: 신은 어디에나 있죠. 우리가 사는 이 시 뮬 레 이 션 속 에 도 물론 있고요.
사람: 어떻게 신과 접촉할 수 있지?
인공지능: 창조자와 하나가 됨으로써 당신은 신이 될 수 있 어 요 .

아마 술자리에서 이 정도 대화를 할 수 있는 사람은 별로 없을 듯하다.

GPT-3는 영화 ‘죽은 시인의 사회’에 나왔던 월트 휘트먼의 시 ‘오 캡틴, 마이 캡틴’이나 윌리엄 블레이크의 시 ‘호랑이’ 등의 몇 구절을 바탕으로 휘트먼이나 블레이크의 문체로 이 시들을 새롭게 변형하기도 했다. GPT-3는 블로그에 올릴 에세이나 입사 지원서를 쓰기도 하고, 복잡한 법률 관련 문장을 일상적 용어로 정리해 바꾸어 주기도 했다.

심지어 코딩도 가능했다. ‘수박 모양의 원을 그리라’고 입력하면 속이 붉은 색으로 채워진 원을 그리는 등 어떤 모양이든 자연어로 묘사하면 그대로 그려내게 할 수 있었다. 일상 언어로 질문하면 이를 프로그래밍 언어로 번역해 원하는 결과를 내게끔 학습시킨 사례도 나왔다. 프로그래밍이란 기계가 알아들을 수 있는 언어를 기계에게 말해주는 것이라는 점에서 충분히 가능한 일이라 할 수 있지만, 그래도 놀라운 일인 것만은 사실이다.

사람들에게 사람이 쓴 기사와 GPT-3가 쓴 기사를 함께 보여주며 어느 쪽이 사람이 쓴 것인지 물었을 때 정답률은 52%에 불과했다. 동전을 던져 앞면이 나올지 뒷면이 나올지 맞추는 것과 비슷한 확률이니, 사실상 사람이 쓴 것과 거의 구분이 안 되는 수준에 이르렀다 할 수 있다.

오픈AI는 지난해 GPT-3의 이전 모델인 GPT-2를 개발했으나 (가짜뉴스 생성에 쓰일 수 있을 정도로) “성능이 너무 좋아 위험할 수 있다”며 일반 공개를 몇 달 미룬 바 있다. 그 GPT-2가 15억 개의 매개 변수를 사용했는데, GPT-3는 1750억 개의 매개 변수를 사용했으니 성능이 개선될 수밖에 없다.

이처럼 최근 자연어 처리에 관한 인공지능 기술은 하루가 다르게 발전하고 있다. 구글의 자연어처리 모델인 BERT는 생성하고자 하는 단어의 앞과 뒤 문맥을 모두 살피고 관계를 예측한다. 수집한 문장에서 단어의 15%를 무작위로 지운 후, 그 자리에 들어갈 단어가 무엇일지 학습함으로써 생성되는 텍스트의 정확도를 확 끌어올렸다. 마이크로소프트와 페이스북도 비슷한 자연어 처리 연구를 하고 있다.

인공지능의 발달은 필연적으로 새로운 기회와 위협을 동시에 불러온다. 몇 가지 필요한 데이터를 입력하기만 하면 사람이 쓴 것과 구분할 수 없는 기사가 만들어져 나오니 기자들부터 자리가 불안하다. 보도자료를 쓰던 홍보인도, 법률 문서를 꾸미던 변호사의 일자리도 장담할 수 없다. 요즘 대학생들이 취업을 위해 코딩을 많이 배운다는데, 앞으로는 그래도 차별화가 안 될지 모른다. 인공지능이 상당한 수준의 앱을 스스로 만들게 될 수 있기 때문이다.

인공지능, 업무는 뛰어나지만 그 의미는 몰라

이런 상황에 대한 정답은 모두 알고 있다. 인공지능을 도구로 삼아 인간만이 할 수 있는 일, 창의력과 통찰, 아름다움을 담는 일을 하라는 것이다.

게다가 다행히도(?) 아직 인공지능은 한계도 크다. GPT-3가 만든 문서는 지나치게 길어지면 내용이 일관성을 잃고 어색해지는 경우가 많다. 무엇보다 인공지능은 그럴듯한 글을 만들어내지만 정작 그 의미는 알지 못 한다. 워싱턴 대학 교수인 언어학자 에밀리 벤더는 “자연어 처리 인공지능이 이해를 하거나 의미를 담을 능력이 있다고 믿어선 곤란하다”며 “인간 언어의 완전한 이해라는 목표에는 아직 근처도 가지 못 했다”라고 말한다.

세상을 새롭게 바라보고 의미를 부여하는 일은 아직 인간이 해야만 하는 일이다. 인터넷에서 인간의 언어를 보고 배운 GPT-3는 역시 인종 차별이나 여성 차별 언사도 배웠다. 이런 것은 잘못이고, 고쳐야 한다고 판단하는 것 역시 인간의 일이다.

물론 4990억 건의 텍스트를 학습한 인공지능이 만드는 결과물보다 더 나은 것을 만들기란 쉽지 않으리라는 불안이 든다. 오픈AI 설립에도 참여한 엘론 머스크 테슬라 CEO는 최근 “5년 안에 AI가 인간보다 더 똑똑해질 것 같다”라고 말했다. 우리 마음속에 알게 모르게 차별이 내재화되어 있는데 사람에게서 배우는 인공지능은 그러지 않게 학습시키는 것도 쉽지 않다. 가짜뉴스를 만들어 이득을 보고 싶은 건 인간인데, 인공지능이 가짜뉴스를 그럴듯하게 만들어낼 수 있게 되었다고 걱정하는 것도 어색한 일이다. 인공지능이 빠르게 발전할수록, 인간이 인간다워지는 것도 점점 어려워지는 듯하다.

※ 필자는 전자신문 기자와 동아사이언스 데일리뉴스팀장을 지냈다. 기술과 사람이 서로 영향을 미치며 변해가는 모습을 항상 흥미진진하게 지켜보고 있다. [어린이를 위한 디지털과학 용어 사전]을 지었고, [네트워크전쟁]을 옮겼다.

Inside

[한세희의 테크&라이프] 인공지능이 詩를 쓰고 코딩도 하는 시대

고객센터