[충청신문=대전] 박진형 기자 = 과학기술정보통신부와 정보통시기획평가원의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 최첨단 한국어 언어모델을 공개했다.
이에 따라 인공지능 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 인공지능 서비스 개발이 한층 고도화될 것으로 전망된다.
한국전자통신연구원은 10일 최첨단 한국어 언어모델 코버트를 홈페이지에 공개했다.
연구진이 공개한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 교착어 특성까지 반영해 만든 언어모델이다.
이 기술은 올해 3월 한컴오피스 지식검색 베타버전에 탑제됐다. 하반기에는 ETRI의 언어모델을 활용한 '법령분야 질의응답 API'에 추가 공개하고 유사 특허 지능형 분석 기술도 출시를 목표하고 있다.
구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. 하지만 ETRI 연구진은 여기에 23기가에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 데이터를 기반으로 언어모델을 개발했다.
ETRI에 따르면 구글이 배포한 한국어 모델보다 성능이 평균 4.5%가량 우수하다. 특히 단락 순위화 기준에서는 7.4% 높은 수치를 기록했다.
개발된 언어모델은 딥러닝 프레임워크인 파이토치와 텐서플로우 환경 모두에서 사용 가능하다. 공공인공지능 오픈 API, 데이터 서비스 포털에서도 찾아볼 수 있다.