6일 한국전자통신연구원(ETRI)에 따르면 위키백과와 법령 등 문어체를 주로 이해하는 언어분석 AI '엑소브레인'을 확장, 구어체 분석이 되도록 고도화했다. 대화 분석오류를 최대 41% 개선했다.
기존 기술은 '충청도인데'를 '충청돈데'라고 표현하는 경우 '충청도+인데'라는 축약 표현을 인식하지 못한 채 '충청돈+데'라고 분석하는 한계가 있었다.
ETRI가 공개한 구어체 언어분석 기술은 크게 형태소분석 기술과 개체명 인식 기술 두가지다. 형태소분석 기술은 한국어 의미 최소 단위를 분석하는 기술이고, 개명체 인식 기술은 문장 내 고유 대상과 그 의미를 인식한다. '국민은행'이 '국민'과 '은행'이라는 명사의 결합이 아닌 고유 명칭이라는 점을 인식하는 기술이다.
연구진은 학습 데이터 부족 한계를 극복하기 위해 이미 존재하는 타 분야의 학습 모델과 소량의 학습데이터를 재사용하는 방식을 이용했다.
결과로, 기존 모델 대비 형태소분석과 개체명 인식 성능이 각각 5%, 7.6% 개선됐으며 오류는 41.74%, 39.38% 감소했다. 특히, 형태소분석은 산업계에서 사용되는 한국어 형태소분석 오픈소스 중 하나인 메캡(Mecab) 오픈소스 라이브러리 대비 10.6% 더 우수한 것으로 평가됐다.
해당 기술은 '공공 AI 오픈 API·데이터 서비스포털'에서 선보이고 있다.