정부가 추진하는 ‘소버린 AI’
풀어쓰면 국가 주도 인공지능
SKT·KT, 한국 특화 모델 개발
오픈소스라 누구나 사용 가능
테크놀로지의 발전이 눈부십니다. 하루만 놓쳐도 따라잡기 빠듯할 만큼 빠릅니다. 어렵다는 편견마저 있어 거리감이 느껴집니다. [테크크]는 편한 뉴스를 지향합니다. IT, 전자, 게임 등의 소식을 보다 접하기 쉽게 다듬고 정돈해 전합니다. 웃으며 가볍게 보셔도 좋습니다. <편집자주>
정부가 적극 추진하는 기조인 ‘소버린 AI’는 용어부터 어렵다. 사전에서는 소버린(sovereign)을 ‘자주적인’, ‘독립된’으로 정의한다. AI(artificial intelligence)는 주지하다시피 인공지능이고. 풀어쓰면 국가 주권형 인공지능, 국가가 주도하는 인공지능 등이 가능하다. 국립국어원에서 다듬은 말은 자국 인공지능이다. 정부는 이 독자적인 인공지능 모델 개발에 대한 전폭적인 지원 의지를 밝히고 있다. 목표는 한발 앞서 있는 미국, 중국과 더불어 ‘세계 3대 AI 강국’ 실현이다.
정부 기조가 확고해지자 기업들도 조준점을 다양화하고 있다. 그간 인공지능 관련 경쟁력을 키우기 위한 글로벌 빅테크 기업과의 합종연횡이 활발했다면, 이젠 자체 개발 움직임이 더욱 거세지고 있다.
‘K-AI’의 이륙
성과는 빠르게 나왔다. SK텔레콤과 KT가 지난 3일 나란히 발판이 될 만한 결과물을 발표했다. 공통점은 다분히 한국적인 인공지능이란 것.
SKT가 이날 오픈소스 커뮤니티 허깅페이스를 통해 공개한 A.X(에이닷 엑스) 4.0(표준 모델·경량 모델 2종)은 한국어 특화 LLM(대규모 언어 모델)이다. 매개변수는 표준 모델 720억 개, 경량 모델 70억 개를 갖췄다. 알리바바의 AI 오픈소스 모델인 ‘Qwen2.5’에 방대한 한국어 데이터를 추가로 학습시켜 국내 비즈니스 환경에 최적화한 것이 특징이다. 이를테면 말이 잘 통한다는 이야기다.
에이닷 엑스 4.0은 자체 테스트 결과 같은 한국어 문장을 입력했을 때 GPT-4o보다 약 33% 높은 효율을 기록했다. 대표적인 한국어 능력 평가 벤치마크인 KMMLU(한국어 대규모 다중과제 언어 이해 평가)에서 78.3점을 얻으며 GPT-4o(72.5점)보다 높았다. 한국어 및 한국 문화 벤치마크인 CLIcK에서도 83.5점을 획득하며 GPT-4o(80.2점)보다 더 높은 한국 문화 이해도를 입증했다.
AI 대중화 서막…나란히 ‘오픈소스’로 공개
같은 날 KT는 허깅페이스를 통해 자체 개발 언어모델(LLM) ‘믿:음 2.0’을 공개하면서 “‘한국적 AI’의 철학을 담았다”고 밝혔다. 한국의 정신과 방식, 지식을 기반으로 구현했다는 것이다.
개발 단계 곳곳에 ‘한국’이 스며있다. KT는 한국어의 구조와 언어학적 특성을 반영한 토크나이저(Tokenizer)를 자체 개발하고, 필터링으로 줄어든 데이터 규모는 데이터 합성 방법론을 적용해 보완했다. 이를 통해 한국 사회 고유의 언어와 문화적 맥락을 정교하게 반영했다. 한국어 사용자에 최적화된 언어 이해 능력과 정밀한 표현력을 지닌 모델 구현이 가능했던 배경이다.
KT는 믿:음 2.0이 고려대학교와 공동 개발한 한국어 AI 역량 평가 지표인 ‘Ko-Sovereign(코-소버린)’ 벤치마크에서 유사 규모의 국내 기성 모델, 글로벌 최고 수준의 오픈소스 모델을 능가하는 점수를 기록했다고 설명했다. Ko-Sovereign은 언어, 문화, 사회, 역사 등의 한국적 맥락을 정밀하게 반영한 전문가 수준의 문항으로 구성됐다.
‘KMMLU’와 한국어 언어모델 평가 지표인 ‘HAERAE’에서도 국내외 주요 오픈소스 모델보다 더 우수한 성능을 기록했다는 게 회사 측 설명이다.
한편 에이닷 엑스 4.0과 믿:음 2.0은 오픈소스로 공개됐다. 오픈소스란 비약하자면 설계도와 자재, 도구를 제공할테니 누구 사용하란 뜻이다. 국립국어원은 다듬은 말로 ‘공개 소스’, ‘공개 자료’를 제시했다.
업계 관계자는 “기업들은 이 같은 열린 소스를 활용해 또 다른 모델을 개발할 수 있다”며 “국내 환경에 최적화된 AI의 등장으로 사용 저변이 넓어질 전망”이라고 말했다.
(CNB뉴스=선명규 기자)