[베트남 이야기] 평화로운 AI시장에, 제미나이의 등장!?🦖
작성일: 2023-12-21

구글(Google), AI 언어 모델 ‘제미나이(Gemini)’

 

 

알파고(AlphaGo)의 핵심 개발자인 데미스 허사비스(Demis Hassabis)가 주도했으며, 대화형 인공지능 모델 중 가장 높은 성능의 언어모델을 개발한 소식으로 12월을 아주 뜨겁게 달구고 있는데요?

 

 

제미나이(Gemini)는

 

  • 이미지를 인식하고,음성으로 말하거나 들을 수 있으며
  • 코딩 능력까지 갖춘 멀티모달 AI 모델 이다
  • 시각과 청각을 활용해 텍스트, 음성, 이미지, 비디오를 인식하여 창작물 생성하며,

 

구글은 제미나이가 오픈 AI의 최신 모델인 GPT-4보다 모든 면에서 성능이 우수하다고 말하는데요.

 

 

그 이유가 제미나이 울트라가 MMLU에서 90%이상의 점수를 얻었기 때문입니다.

 

 

이미지 출처 : Papers with Code 홈페이지

 

 

출처 : Chatbot Arena Leaderboard – a Hugging Face Space by lmsys

 

 

MMLU이란?

 

 

Massive Multitask Language Understanding의 약자입니다.

 

 

인공지능 모델의 지식을 측정할 수 있는 테스트이며, 약 57개의 주제(수학, 물리학, 역사, 법률, 의삭 및 윤리 등)의 다지선다에 대한 문제 해결 능력을 측정할 수 있는 지표가 됩니다.

 

 

이 테스트에서 제미나이는

  • 인간보다 0.2% ↑
  • GPT-4보다 3.6% ↑

 

인간과 오픈 AI의 최신 모델 보다 높은 점수를 받았기 때문에 우수하다고 말합니다.

 

 

 

 

언어를 지배하는 것이 현지화의 성공의 첫걸음

 

 

IP 및 콘텐츠 사업의 글로벌 진출은 바로 “언어”의 현지화 부터 성공하는 것

 

 

IP산업의 중요한 것 중 하나로 바로 언어 서비스 입니다.

 

 

지난 10월 일본 뉴스레터에서 네이버 웹툰의 성공과 글로벌 시장 진출에 대해 가볍게 이야기 했던 거 기억나시나요? (지난 10월 뉴스레터 다시보기→)

 

 

네이버 웹툰 역시 영어, 일본어, 중국어 뿐만 아니라, 태국어, 인도네시아, 스페인어, 프랑스어, 독일어 등 다국어 서비스를 제공하고 있습니다. 대한민국은 콘텐츠 강국이라고 할만큼 뛰어난 창작물들이 많지만, 5174만명(2021년 기준) 밖에 되지 않는 인구 수를 가지고 있기 때문에, 기업이 새로운 소비자를 발굴하기 위해서는 어느 순간부터 해외의 소비자를 타겟으로 성장해야 하는 인구사회학적 요인을 가지고 있습니다.

 

 

IP사업의 대표적인 성공 사례 중 하나인 뽀로로의 경우, 글로벌 사업에서 가장 중요하게 여긴 사항이 바로 콘텐츠의 현지화 였다고 하죠.*

 

“사업초반부터 철저한 현지화를 통해 전세계 어린이가 즐길 수 있는 다국어 콘텐츠를 만들었죠. 특히 영문 콘텐츠는 영어권 국가 뿐만 아니라, 싱가포르, 홍콩, 대만, 인도네시아 등 영어교육 수요가 높은 국가에서도 즐겨보는데요. 실제로 유튜브에서도 영어 채널이 가장 인기가 많습니다. 그래서 스마트스터디는 영어버전의 콘텐츠를 만들고 그 다음에 한국, 일어, 중국어, 스페인어 버전을 제작하고 있습니다.”*

*출처 : [라이즈 컨퍼런스 2017] 핑크퐁이 글로벌 키즈 콘텐츠로 성장한 이유…정연빈 핑크퐁 미국법인장-모비인사이 (2017.7.20)

 

LLM 기술이 발전이 글로벌 진출의 시장은 단축할 수 있다

 

 

양질의 콘텐츠, 글로벌화를 위해서 중요한 것이 바로 “다국어 언어 서비스” 제공입니다. 유명 OTT 중 하나인 넷플릭스에서 프로그램을 하나 제작하고 오픈하는데 장기이 소요되는데요 그 이유는 촬영과 편집에도 있지만 바로 “다국어 언어(번역)”에 많은 시간이 투자하기 때문입니다.

 

 

넷플릭스의 1위한 9콘텐츠만해도 9개! 그 배경에는 33개 언어로 번역되어, 일명 ‘말맛’이 있는 ‘자막의 힘’ 덕분이라고 합니다. 넷플릭스는 단순한 번역이 아닌 현지화의 최전선에 신경을 쓴다고하는데요.*

*출처 : 1위 K콘텐츠만 9개, 33개 언어로 번역… 말맛 살린 ‘자막의 힘’ – 조선일보(2023.07.07)

 

 

예를 들어, 2022년을 강타한 드라마 ‘이상한 변호사 우영우’는 한국식 말장난이 많은 편인데요.

 

  • 한국어 대사 : “바람이 굉장히 귀엽게 부는 데서 사시네요? 분당~”
  • 영어 자막 : “There must be some really great bread where you live. Bun, dang”

 

와 같이 한국어 자막을 직독직해 식으로 단순 번역을 하는 것이 아니라,

 

“빵이 정말 맛있는 곳”으로 영어 자막을 바꾸고,

“bun(빵)” “dang(대박)”과 비슷한 영어 감탄사로 ‘분당’이라는 말맛을 살린 것입니다.

 

 

이름이 곧 장르다 라고 불리는 더 지니어스의 아버지 정종연 PD가 채널십오야에서 했던 토크를 돌아보면, 넷플릭스에서 오픈한 데블스플랜의 편집을 끝낸 것은 2023년 5월 말이지만, 넷플릭스에 방여된 것은 2023년 9월 26일 입니다. 그리고 그 이유가 약 4개월 간 번역과 더빙 서비스를 하기 위해서라고 했죠.

 

 

이처럼 양질의 콘텐츠, 글로벌화를 위해서 중요한 것이 바로 현지를 제대로 이해한 “다국어 언어 서비스” 제공입니다. 유명 OTT 중 하나인 넷플릭스에서 프로그램을 하나 제작하고 오픈하는데 장기이 소요되는 이유는 촬영과 편집에도 있지만 바로 “다국어 언어(번역)”에 많은 시간과 전문인력이 투입이 필요하기 때문이죠.

 

 

LLM이란?

Large Language Model의 약자이며, 대형 언어 모델 또는 거대 언어 모델은 수많은 파라미터를 보유한 인공 신경망으로 구성되는 언어 모델입니다. 인간의 언어를 이해하고 생성하도록 훈련된 인공지능을 통칭하는 말입니다.


 

LLM의 불모지, 아시아 언어

 

 

LLM의 기술은 주로 “영어”를 기반으로 상당 수준 이상으로 발전하였으나, 비영어권의 경우에는 상대적으로 취약합니다. 단순히 세계 공용어가 아니고,사용하는 인구가 영어보다 적어서 그럴까요?

 

 

이미지 출처: Statista, 2022

 

 

‘2022년 전 세계에서 가장 많이 사용되는 언어’의 통계 조사 시, ‘1위 영어(15억 명) > 2위 중국어(11억 명) > 3위 힌디어(6억 220만 명) > 4위 스페인어(5억 4,830만 명)’순으로 언어 사용자가 많다고 합니다.

 

흥미로운 점은 ‘인터넷에 연결하는 사람들의 20%’는 ‘중국어’를 사용하지만, 웹에서 사용할 수 있는 콘텐츠의 1%만 중국어란 점이죠.*

*출처 : Latis (2022.09.16)

 

 

단순히 사용자가 많으면 해당 언어로 된 콘텐츠도 많아야 한다는 논리로 따진다면, 중국어는 11억 명이 사용하는 언어이니, 중국어로 된 인터넷 콘텐츠도 많아야 하지 않을까요? 하지만 그렇지 않다는 것이 인터넷 언어의 흥미로운 부분일 것입니다.

 

 

 

 

왜 비영어권의 LLM 시장은 영어권 LLM 시장보다 발전이 더딜까요?

 

저는 이유를 바로 ‘번역’에서 찾았습니다. 인공지능인 아닌 인간보다 비영어권 언어는 영어권에 비해 번역이 어렵습니다. 왜 비영어권 번역이 어려울까요? 일단 영어, 한국어, 동남아어(태국어, 베트남어 등)를 기반으로 예시를 찾아서 설명드리겠습니다.

*출처 : 태국어 번역이 까다로운 3가지 이유-판디

 

1) 문법의 규칙성의 차이

 

구분 현재형 과거형
영어 Go Went
한국어 가다 갔다
태국어 ไป ไป
베트남어 đi đi

 

 

영어의 주어,목적어, 동사등의 문법적 형태가 있지만, 베트남어 및 태국어의 경우 이러한 문법적 규칙(고립어의 변형 개념)이 없거나 다릅니다.

 

 

상기 도표를 보면, 한국어와 영어는 “가다(Go)”와 “갔다(Went)”의 동사의 형태가 달라지는 것을 확인할 수 있지만, 태국어와 베트남어의 경우 동사 형태 자체는 변형이 없는 것을 확인할 수 있으며, 이와 같이 문법을 차이로 단순히 단어만 보고 “과거/현재/미래” 중 어느 시점을 의미하는지 유추할 수 없으며, 전체적인 문맥 속에서 이해를 해야 하는 것입니다.

 

 

 

 

2)단어를 구성하는 방식의 차이

 

 

한국어의 어휘 중 57%가 한자어로 이뤄져 있지만, 다양한 어휘를 표현합니다. 예를 들어, 한국어로 “노랗다/ 누렇다/ 누르스럼하다”는 다 다른 뜻이며, 우리는 정확히 설명하지 못하지만 “느낌적인 느낌으로” 뜻을 구분하여 해당 표현을 사용합니다.

 

 

하지만 영어로 표현한다면 “Yellow”정도로 표현할 수 있죠.

 

 

단순히, 비영어권과 영어권의 차이 뿐만 아니라, 같은 비영어권 한국어와 태국어 조차 단어의 탄생/조합/구성 등 개념과 방식이 매우 다릅니다.

 

 

구체적으로 예를 들자면, “얼음”이라는 고유 명사에 대해

 

🧊태국어 : 얼음(น้ำแข็ง) = “물(น้ำ)+강한(แข็ง)

 

한국어의 “얼음”과 달리 태국어에서 “얼음(น้ำแข็ง)”은 “물(น้ำ)+강한(แข็ง)”라는 두 가지의 단어를 합쳐진 형태입니다.

 

이처럼 태국어의 경우, 기존의 단어를 조합하고, 세분화하여, 새로운 의미를 부여하여 고유명사로 사용하는 것입니다.

 

 

 

 

3) 맥락 문화의 특징이 강하다

 

영어의 경우 저맥락 기반이지만, 한국어와 베트남, 태국어는 고맥락 언어를 기반으로 합니다.

 

쉽게 여러분의이해를 돋기 위해, 한국어와 영어로 예를 들면 이렇습니다.

 

 

한국어

“우리 나중에 밥 먹자.”

👉“나중에 (or 언젠가) 시간이 되면 만날까?”

 

 

영어

“우리 나중에 밥 먹자.(Let’s have a lunch later.)”

👉“우리 나중에 밥 먹자.(Let’s have a lunch later.)”

 

 

한국어로 “ 우리 나중에 밥 먹자”라고 말한다면 “나중에 (언젠간) 시간이 되면 만날까?”라는 의미로 자연스럽게 해석하는 반면에, 영어권에서 “우리 나중에 밥 먹자(Let’s eat later)”는 그대로 “식사 약속을 잡기”위한 의미로 통용되죠. 외국인들이 처음 한국 사람과 대화를 할때 가장 많이 섭섭해 하는 부분이 바로 “우리 나중에 밥먹자”라는 말이라고 하는데요. 왜 식사 약속을 잡으면서 언제, 어디서 볼지 안 정하는지 처음에는 다소 의아한 경우가 많다고 하죠. (웃음)

 

그렇기 때문에 아시아권의 언어는 “직역”보다는 전체적인 문맥을 파악이 중요합니다. 이미 수많은 번역 어플이 있음에도 불구하고 전문 통번역가가 필요한 것은 소통에서 “직역”이 아니라 “의역”이 필요하기 때문이죠. “직역”과 “의역”의 차이는 아래와 같습니다.

 

 

It’s a Piece of Cake!🍰

 

직역(영어 → 한국어) 👉케이크 한 조각이다!

의역(영어 → 한국어) 👉식은 죽 먹기지!

 

 

이처럼 대화하는 상대방 사이의 관계와 배경, 전체적인 대화의 흐름을 파악해야 정확한 번역을 할 수 있습니다. 또한 언어는 사회, 문화, 역사를 바탕으로 쌓아오고 발전하기 때문에, AI가 인간의 문화와 감성마저 학습이 되어야, 화자의 정확한 의도를 파악하여 번역할 수 있기 때문에 전문 통/번역가가 필요한 이유입니다.

 

 

 

 

한국어-태국어 LLM의 등장!?

 

 

이처럼 동남아시아 지역의 언어는 그 특색이 있어 번역 시스템으로 돌리기에 어렵다는 이슈가 있는 이 와중에 KT에서 태국어 LLM을 만들겠다는 포부를 밝혔습니다.

 

 

양사는 내년 상반기 자스민그룹 자회사 자스텔(Jastel)이 추진하는 신규 IDC에 GPU Farm을 구축한 뒤, 하반기부터 태국어 전용 LLM을 구축하며 단계적 협업 나서며, 태국 성공 사례를 기반으로 글로벌 LLM 사업 모델을 공동 발굴하고 라오스와 캄보디아 등 동남아 시장으로 공동 사업화에 협력한다는 계획이라고 합니다.*

*출처 : KT 초거대 AI ‘믿음’ 첫 해외 진출…태국어 LLM 만든다-전자신문(2023.10.22)

 

 

△태국어 전용 LLM 및 사업 모델 구축

△동남아 시장 분석 및 마케팅 전략 수립

△LLM 구축 기술 및 노하우 전수

△동남아 시장 AI 규제 대응 방안 공동 수립 등

사업을 추진할 예정이라고 하는데요.

 

 

시작이 반이라는 말이 있죠?

태국어를 시작으로 앞으로 한국어-베트남어 LLM 시장도 성장하기를 기대해봅니다!

 

 

 

#LLM #Large Language Model #MMLU #Massive Multitask Language Understanding #Gemini #AI #GPT4 #Google #KT #동남아LLM #태국어LLM #언어 #현지화 # 해외진출 #GTM #GoVietnam #베트남진출 #동남아진출 #메가존클라우드 #MegazoneCloud

 

 

 

 

💠 💠 💠

 

 

📰 더 많은 베트남 소식을 뉴스레터 형식으로 받아보고 싶으신가요? 📰

그렇다면 베트남 뉴스레터를 구독하시고, 최신 뉴스를 받아보세요.

 

👇👇구독신청 바로 가기👇👇

 ※ 2023년 발송일 : 3월, 6월, 9월,12월 말 ※

(총 4회/연)

Written by 메가존클라우드 Marketing Group Jemma