한국국학진흥원, 국내 최초 자동 문장 분절 프로그램 개발

  • 피재윤
  • |
  • 입력 2023-12-23 13:16  |  수정 2023-12-23 13:17  |  발행일 2023-12-23
한국국학진흥원, 국내 최초 자동 문장 분절 프로그램 개발
고문헌 한문 자동 문장 분절 결과 화면<한국국학진흥원 제공>

전통 기록유산 속 한문 문장을 자동으로 분절해주는 '고문헌 한문 자동 문장 분절' 프로그램이 곧 공개된다.

한국국학진흥원은 2022년부터 국학 자료를 대상으로 한 AI(인공지능) 기반 자동번역 프로그램 개발에 착수해 고문헌 문자인식(OCR) 프로그램에 이어, 자동으로 문장을 분절해주는 프로그램 개발에 성공했다.

한국국학진흥원 관계자에 따르면, 본 인공지능 기반 고문헌 자동 문장 분절 프로그램의 정확도는 약 90% 이상이다.

전통 기록유산은 대부분 한문으로 기술되었기 때문에 일반인은 접근하기 어려운 실정이다. 이에 활용을 위해서는 디지털 텍스트화와 한글 번역이 필수적이다.

국내 최다 기록유산 소장 기관인 한국국학진흥원(63만여 점 소장)이 인공지능을 활용한 자동번역 프로그램 개발에 착수하면서 전통 기록유산에 대한 디지털화 및 번역에 청신호가 켜진 것.

한국국학진흥원은 소장자료를 기반으로 원문자료의 자동 인식부터 문장 분절, 한글 번역까지 일련의 과정을 인공지능을 통해 자동화시킬 계획이다.

이번에 공개한 '고문헌 자동 문장 분절 프로그램'은 한문 번역 과정의 정확도 제고를 위해 필수적인 것으로, 이후 자동번역 시스템 구현에 기초 자료로 활용될 예정이다.

현재 전통 기록유산은 비디지털화, 미번역이라는 거대한 활용장벽에 막혀 있다.

전통 기록유산의 원문 텍스트 및 한글 번역 구축에는 막대한 예산과 비용이 소요된다.

전문기관의 연구에 따르면 지금과 같은 아날로그식 방법을 유지할 시, 전통 기록유산에 대한 디지털화와 번역에는 300년 이상이라는 오랜 기간이 소요된다.

하지만 인공지능 기술을 활용한 문자인식·문장 분절을 활용하면, 관련 인력 대비 30배 이상의 빠른 속도로 디지털화 작업이 가능하다.

이번 사업은 관련 산업에 적극적으로 활용돼 전통 기록유산에 대한 일반인들의 접근성을 한 단계 높일 수 있을 것으로 전망된다.

한국국학진흥원은 원내 연구원들을 대상으로 테스트를 마친 후, 일반인에게도 한국국학진흥원 웹사이트(https://ocr.ugyo.net/space/)를 통해 프로그램을 공개할 예정이다.

이 프로그램은 PC뿐 아니라 태블릿, 스마트폰으로도 이용이 가능하다. 현재 한국국학진흥원은 OCR을 활용한 고도서 한자 인식(https://ocr.ugyo.net/ocr/)과 이미지 검색(https://ocr.ugyo.net/isearch/)도 서비스 중이다.
피재윤기자 ssanaei@yeongnam.com

기자 이미지

피재윤

기사 전체보기

영남일보(www.yeongnam.com), 무단전재 및 수집, 재배포금지

사회인기뉴스

영남일보TV



많이 본 뉴스

  • 최신
  • 주간
  • 월간

영남일보TV

더보기