누리IDT가 ‘고문헌 한자OCR서비스’는 국내 고문헌 자료에 특화된 고성능 한자 자동인식 모델이다. 화면의 원문 이미지 입력 창에 원문 한 면씩을 업로드하면 AI가 이미지 속의 글자를 자동인식하고 곧바로 한자 텍스트로 출력해주는 방식이다.
서비스 개발 과정에서 AI모델은 형태와 크기가 다양한 고문헌 속 한자를 3000만자 이상 학습하는 데 성공했다. 그 결과 일반적인 고문헌 형태, 즉 가장 많이 쓰이는 해서체나 행서체 글자에 세로쓰기로 제작된 목판본 자료에 대해서는 95~100%(평균98%)란 높은 인식률을 구현하고 있. 또한 손글씨로 작성된 필사본의 경우에도 전문가도 판독하기 어려운 초서 자료가 아니라면 상당한 수준의 인식률을 보인다는 평가다.
수작업 입력보다 높은 정확도를 유지하면서도 텍스트화 과정에 들어가는 인력과 시간과 비용을 획기적으로 절감할 수 있다.특히 한문 고문헌 자료를 다량 보유하고 있는 한국학 연구 기관, 대학과 연구소, 도서관, 문화원 등 각급 기관들의 경우 보유 고문헌의 텍스트화 및 데이터베이스 구축에 투입되는 노력과 비용을 1/10수준으로 줄일 수 있다.
고성능 한자OCR서비스를 개발 출시한 ㈜누리IDT는 지능형 데이터 전문기업으로 현재 한국고전번역원이 제공하고 있는 <한문고전 자동번역 서비스>를 지난 2017~2019년 3년간에 걸쳐 개발한 이력이 있는 곳이다. 다년간 주요 한국학 연구 기관들의 DB구축 사업을 수행한 바 있다.
이어 ”고문헌 한자OCR서비스가 적극 사용되어 원문의 텍스트화가 촉진되기를 바란다“며 ”고문헌 처리에 특화된 AI기반의 한문 자동표점과 자동번역 서비스를 단계적으로 개발, 누구나 쉽게 고문헌 자료를 읽고 데이터와 콘텐츠로서 활용할 수 있도록 하겠다”고 포부를 밝혔다.