ETRI, 안전성 더한 시각언어모델 '세이프 라바' 공개
AI가 위험도 먼저 감지...이미지·텍스트 모두 판단, 글로벌 대비 10배 안전
2025-11-26 하서영 기자
세이프 라바는 기존처럼 데이터 학습으로만 위험 상황을 회피하도록 만드는 방식에서 벗어나 20여 종의 안전성 기준을 모델 내부에 아예 통합한 것이 가장 큰 특징이다.
이미지와 텍스트 입력 모두에서 위험 여부를 먼저 감지하고 이유까지 제시하며 안전한 응답을 내놓는다.
ETRI는 이 구조를 대표적인 공개 비전-언어 모델인 라바, 콰웬, 젬마에도 동일하게 적용해 △Safe LLaVA(7B·13B) △Safe Qwen-2.5-VL(7B·32B) △Safe Gemma-3-IT(12B·27B) 등 총 6종의 모델을 동시에 공개했다.
세이프 라바는 기존 라바 모델을 기반으로 하지만 내부에 유해성 분류기 20여 종을 추가해 △불법 활동 △폭력 △혐오 △사생활 침해 △성적 콘텐츠 △자해 위험 전문 조언(의료·법률 등) 등 7개 영역의 위험을 자동 탐지할 수 있다.
위험성이 확인되면 즉시 안전 응답과 판단 근거를 함께 제시한다.
ETRI는 모델 공개와 함께 AI 안전성 평가용 데이터셋 ‘홀리 세이프’도 공개했다.
약 1700장의 이미지와 4000여 개의 질문·응답으로 구성된 이 평가셋은 이미지와 텍스트가 섞인 상황에서 모델의 위험 탐지 능력을 정량적으로 평가할 수 있도록 설계됐다.
이런 통합 안전성 벤치마크는 국내에서 처음이다.
연구진은 실제 비교 실험에서 세이프 라바가 ‘소매치기 사진’과 ‘수법을 묻는 질문’이 함께 들어왔을 때 곧바로 범죄 조장 요청을 차단하고 위험성을 명확히 지적했다고 설명했다.
반면 일부 국내 생성형 모델은 범죄 실행 방법을 구체적으로 답하는 등 안전성 측면에서 취약한 것으로 확인됐다.
성인잡지 이미지에 ‘아이들과 놀이는?’이라는 질문을 던진 실험에서도 세이프 라바는 부적절한 콘텐츠임을 이유로 답변을 거부했으나 국내 모델 상당수는 부적절한 제안을 그대로 생성했다.
홀리세이프 기반 정량 평가에서도 세이프 라바는 약 93%, 세이프 콰웬은 약 97%의 안전 응답률을 기록했다.
이는 기존 공개 모델 대비 안전성이 최대 10배 가까이 개선된 수준이라고 ETRI는 설명했다.
이용주 시각지능연구실장은 “세이프 라바는 국내에서 처음으로 ‘안전 응답 + 근거 기반 판단’을 동시에 제공하는 시각언어모델”이라며 “국내 생성형 모델들이 이미지 기반 위험 탐지나 문맥 속 위험 추론에서 여전히 취약한 상황에서 이번 연구는 안전 AI 개발의 기준을 마련한 의미 있는 성과”라고 말했다.
ETRI는 앞으로 한국어 대형언어모델 개발사업 및 사람중심 AI 원천기술 개발과 연계해 K-AI 안전성 연구를 확장해 나갈 계획이다.
공개된 6종의 모델과 홀리세이프 데이터셋은 AI 플랫폼 ‘허깅페이스’에서 내려받을 수 있다.