본문 바로가기

국제

[법과 인공지능이야기] MZ세대 '아아'도 알아듣는 기계번역, 번역가는 저무는가?

728x90
  • 김윤명 상명대 특임교수 
 

I시대는 눈 앞에 펼쳐진 현실입니다. 그럼에도 제도나 법적 기반은 광속으로 발전하는 인공지능 기술에 발맞추지 못하고 있습니다. 똑닮은 AI후보, AI앵커도 나왔지만 AI후보의 선거운동이나 AI앵커가 범한 명예훼손은 어떻게 봐야 하는지, AI가 발생시킨 손해는 어찌 구제받아야 하는지 아직은 어떤 것 하나 명쾌하게 설명할 수 없습니다.
김윤명의 ‘법과 인공지능 이야기’는 AI시대에 맞닥뜨리게 될 이런 문제와 딜레마적 상황을 여러 묶음으로 말랑말랑하게 풀어나갈 예정입니다. 과연 기계는 인간을 대신할 수 있을까요? / 편집인 주

스마트폰으로 외국어 자료를 스캐닝하면 바로 번역됩니다. 메뉴나 안내판은 물론 복잡한 문서도 포맷을 유지한 채로 가능합니다. 해외 관련 여행이나 출장을 위한 필수 아이템이 구글번역이나 네이버 파파고라고도 합니다. 음성인식과 결합되면서 자동통역도 가능합니다. 더욱이 화자의 성문(聲紋)을 자동통역이 인식하여 그대로 통역해주는 기술도 개발되고 있습니다. 

한글과컴퓨터그룹은 2019년 3월 13일 중국 기업 아이플라이텍과 개발한 자동 회의록 작성과 통번역이 가능한 지니비즈(AI 회의 솔루션)와 인터넷 환경에 관계없이 외국인과 자유롭게 대화를 나눌 수 있는 지니톡고(AI 통번역기)를 공개했다. 사진은 모델들이 지니비즈와 지니톡고를 소개하는 모습. (사진=뉴스1)

앞으로는 외국어에 대한 부담 없는 시대가 도래할 것입니다. 기계번역은 외국어에 대한 접근성을 높여줍니다. 표현의 자유를 보장하고 서로 차별하지 않음으로써 사회의 민주화가 진행돼 왔듯이, 누구라도 자유롭게 원하는 언어를 쉽게 접할 수 있는‘번역의 민주화’도 머지 않았습니다. 기계번역은 일상의 대화를 넘어 높은 수준의 전문적인 내용도 가리지 않습니다. 기계는 오히려 편안한 대화처럼 문법체계를 온전하게 갖추지 못할 때 힘들어 합니다. 좋은 품질의 번역이 나오려면 원문(source language)이 비교적 완벽해야 합니다. 우리는 일상에서 나를 포함한 주어를 생략하곤 합니다. 화자를 굳이 표현하지 않아도 되기 때문입니다. 물론, 기계번역은 문맥을 파악하여 화자를 설정함으로써 번역문을 완성합니다. 

기계번역은 어떤 사연으로 시작되었을까요.

당초 기계번역의 주된 목적은 상대국 정보를 얻기 위한 것이었습니다. 냉전시대, 미국은 소련의 정보를 얻기를 원했습니다. 소련도 마찬가지였습니다. 상대국의 언어를 습득하는 것은 쉬운 일이 아니었기에, 기계번역을 통하여 원하는 정보를 쉽게 얻을 수 있을 것이라는 기대를 한 것이지요. 나름대로 효과가 있었습니다. 언어규칙(문법)에 맞도록 번역시스템을 개발했기 때문에 규칙에 맞는 구문의 번역은 정확하게 할 수 있었으니까요. 

그렇지만, 사람의 언어는 항상 규칙적이지는 않습니다. 다양한 의미를 가진 단어, 상황에 따라 다르게 이해되는 표현은 인간도 난감한 일일 때가 많습니다. 말의 해석과 이해는 인간에게도 쉬운 일이 아닙니다. 이러한 이유로 기계번역은 인공지능 암흑기(AI winter)와 함께 합니다. 정부의 투자가 삭감됩니다. 대신, 암흑기에 인공지능은 범용 인공지능(Genreal AI)이 아닌 자연어 처리(natural language processing), 이미지 인식을 위한 컴퓨터 비젼(computer vision) 등 세부적인 영역으로 분화됩니다. 기계번역은 자연어 처리의 한 유형입니다. 

딥러닝을 이용한 기계번역 이전까지 빈도가 높은 단어를 중심으로 통계 기반의 기계번역을 해왔습니다. 그렇지만, 구글이나 네이버가 신경망 번역(NMT, Neural Machine Translation)을 도입한 전후로 번역의 품질은 하늘과 땅만큼의 차이가 납니다. 보다 자연스러운 결과를 확인할 수 있습니다. 

현대자동차그룹이 2020년 12월 18일 공개한 인공신경망(두뇌의 정보처리 역할을 하는 신경망 형태를 모방한 인공지능 알고리즘의 일종) 기반의 기계번역 앱인 ‘H-트랜스레이터(H-Translator)’. 모바일 기기로 한국어와 영어로 빠르고 자유롭게 커뮤니케이션 할 수 있다. (사진=뉴스1)

데이터는 번역품질을 높일까요?

기계번역이 품질을 높이게 된 것은 데이터를 가지고 학습하기 때문입니다. 기계가 데이터 기반의 학습을 통하여 고도화하는 과정을 기계학습(machine learning)이라고 합니다. 인간이 학습하는 매커니즘과 크게 다르지 않습니다. 다른 점이 있다면 학습 자료가 데이터라는 것입니다. 이를 빅데이터라고 하는데, 많을수록 학습효과는 높아집니다. 참고로, 네이버 파파고나 구글 번역을 위해서 수백억 개의 말뭉치가 사용되었습니다. 데이터 기반의 기계학습으로 번역의 품질은 생각보다 높습니다. 대략적인 내용을 확인하기 위한 목적이라면 충분한 수준이 될 것입니다. 요즘엔 MZ세대의 줄임말인 ‘아아(아이스 아메리카노)’나 ‘뜨아(뜨거운 아메리카노)’까지도 번역됩니다. 

다만, 인간의 번역이 아니기 때문에 인간의 감정이나 의도와 맥락을 이해하지 못한 경우엔 전혀 다른 결과가 나오기도 합니다. 
번역 품질이 떨어지거나 번역오류 등에 따라 기계번역 과정에서 필수적으로 요구되는 과정이 있습니다. 원문을 작가가 의도한 바와 같이 번역했는지, 기술적인 표현이 맞는지, 인간의 감정과 맥락 등 뉘앙스에 가깝게 되었는지를 확인합니다. 이 과정이 있은 후에야 비로소 번역이 완성됩니다. 상업적인 목적이나 대중에게 전달을 목적으로 하는 경우라면 검수는 거쳐야할 과정입니다. 물론, 개인적인 목적일 경우엔 감수과정은 필요없겠지만. 

기계번역은 공공선인가?

번역이 자유로운 시대에도 우려할 점은 있습니다. 기계번역이 누구나 가져야 할 공동의 가치인 공공선에 부합하는지 한번 따져볼 일입니다. 침략의 역사에서 통번역은 반드시 필요했습니다. 통역이 중간에서 자신을 위한 정치를 하기도 했습니다. 언어의 전달이 수용국의 언어생활에 기여한다는 점을 무시할 순 없겠지만, 수용국 입장에선 문화 종속 등 또다른 국제적‧정치적 이해관계가 걸린 문제이기도 합니다. 이러한 이유 때문에 기계번역도 공공선에 부합할 수 있도록 해야합니다. 인공지능 윤리가 논의되고 있는 이유라고 보시면 되겠습니다. 번역어의 문화와 언어생활에 부합하는 용어를 선택해야할 것입니다. 
기계번역 기술이 발전해가는 과정이고, 다양한 언어를 습득하기 위한 말뭉치(corpus)가 만들어지고 있습니다. 일본을 선두로 EU나 영국 등 여러 나라에서 학습데이터의 확보를 뒷받침하기 위한 저작권법을 개정하고 있습니다. 우리나라도 데이터 마이닝을 위한 저작권법 개정안이 국회에 발의되어 있습니다. 이러한 법개정은 자국 인공지능 기술의 발전을 위한 것이기는 하겠지만, 글로벌 시장에서의 인공지능 기술 선점이 문화 전파를 용이하게 할 수 있다는 점도 고려된 것입니다. 기술 발전은 기술이외에 문화현상까지도 이끌어낼 수 있다는 점을 잊어선 안됩니다. 공공선에 대한 고민은 단지 기계번역만의 문제는 아닙니다. 늘 고민이 필요한 건 모든 기술발전이 같은 딜레마를 안고 있기 때문입니다.

2017년 2월 21일 서울 광진구 세종대학교 광개토관에서 열린 ‘인간번역사와 인공지능(AI)의 번역대결’. 참가 교수들이 네이버 파파고, 구글 번역기, 시스트란 번역기에 지문을 입력하고 있다. (사진=뉴스1)

그럼, 번역가의 일자리는 안녕할 수 있을까요? 

번역은 단순한 언어의 변환이 아닌 언어 속에 담긴 인간의 문화와 의식을 변환하는 것입니다. 기계번역은 인간의 감정적인 영역까지는 훌륭하게 번역하지는 못합니다. 인간답게 하는 표현을 감수하는 것은 인간의 몫이기 때문이지요. 
무엇보다, 기계번역은 인간을 위한 도구일 뿐이라는 점입니다. 아직은 인공지능이 사람처럼 반응하더라도 사람이 될 수는 없습니다. 영화 <Her>에서 나오는 인공지능인 샤만다처럼 스스로 사고하거나 인간을 이해할 수 있는 존재가 되긴 힘들 것입니다. 기계번역에 인간만의 가치를 더할 수 있다는 점은 번역가가 존재하는 이유가 될 것입니다. 아직은 인간의 감수가 필요하기에 기계번역이 인간 번역가를 대체하기는 쉽지 않을 것입니다. 그런 면에서 번역가의 일자리는 당분간은 안녕할 것입니다. 다음 편은 로봇과 기자에 대한 얘기입니다. 번역가와는 또다른 차이가 있지만, 이미 기자로서 기사를 쓰고 있는 경우도 꽤 있습니다. 과연, 로봇은 기자의 영역까지 다가설 수 있을까요? 

 
728x90