- 고품질 말뭉치 데이터 구축으로 한국형 생성AI 품질 향상에 활용 기대
[위즈뉴스] 언어 데이터 및 전문번역 서비스 기업 플리토(대표 이정수)는 25일, 사단법인 국제한국어교육학회와 함께 국립국어원의 한국어-외국어 병렬 말뭉치 구축 사업에 3년 연속 참여한다고 밝혔다.
플리토는 이번 프로젝트 수행을 위한 기술성 전반과 기업 건전성을 종합적으로 평가 받았으며, 올 연말까지 약 24억원 규모의 병렬 말뭉치 데이터를 구축할 계획이다.
플리토가 3년 연속 이 사업을 수주한 배경에는 기존 사업의 성공적인 수행 성과뿐 아니라, 언어 데이터 구축 전문성, 고품질 말뭉치 구축에 필요한 언어 전문가와 전문 번역가를 보유한 통합 번역 플랫폼 등이 있는 것으로 알려졌다.
플리토는 데이터 사업 본격화 이전부터 글로벌 유저들이 활동하는 언어 플랫폼을 운영해 왔으며, 플랫폼 내 보상형 서비스인 ‘아케이드’를 통해 저작권 문제가 없는 최신의 언어 데이터를 제공해 왔다.
특히 대규모 언어 모델(LLM)과 인공지능 챗봇이 업계 최대의 이슈로 부상한 올해 초에는 ‘아케이드’를 통한 대화형 데이터 수집량이 하루 50만 건을 돌파하는 등 데이터 수요가 급속도로 증가했다. 수집된 데이터는 주제, 지역, 화자의 나이 및 성별, 대화 유형 등 다양한 메타데이터 정보를 삽입해 생성형 AI 학습에 사용될 수 있도록 정제해 왔다.
이번 사업은 베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어, 러시아어, 우즈베크어 등 총 8개 언어의 병렬 말뭉치 구축을 목표로 한다.
해당 언어들은 한국어와 한국 문화 콘텐츠에 대한 관심이 높고 경제 성장 잠재력 또한 큰 국가들의 언어이다. 이들 언어들은 아직 상대적으로 데이터 수가 부족하기 때문에, 이번 말뭉치 구축 사업을 통해 인공지능 성능 향상뿐 아니라 국가 상호 간 관계 증진 및 언어문화 교류 활성화도 기대하고 있다.
국립국어원의 이번 사업을 통해 구축하게 될 데이터는 정부 기관, 산업계, 연구소 및 교육기관 등에 이르기까지 다양한 분야에서 활용될 예정이다.
오픈AI의 챗GPT나 구글 바드 등 초거대 AI 기술이 빠르게 대중화되고 있는 가운데, 이번 말뭉치 데이터 구축사업은 정부가 주도하는 '한국형 챗GPT' 성능 향상 및 특화 인공지능을 위한 파인튜닝(fine-tuning)에도 기여할 것으로 예상된다.
플리토 이정수 대표는 “우리 정부가 중점적으로 육성하는 언어 인공지능 분야에서 한국이 경쟁력을 확보하고 주도권을 가져갈 수 있도록 최선을 다하겠다”고 말했다.