질병관리청(청장 임승관) 국립보건연구원(원장 남재환)이 한국어와 영어가 혼합된 국내 병원 전자의무기록(EMR)을 보다 정확하게 분석·활용할 수 있는 한·영 이중언어 인공지능 모델을 국내 최초로 개발했다.
국립보건연구원은 최근 ‘Domain and Language adaptive pre-training of BERT models for Korean-English bilingual clinical text analysis’ 논문을 통해 이 같은 연구 성과를 발표했다.
국내 의료기관에서 생성되는 전자의무기록(Electronic Medical Record, EMR)의 약 80%는 자유서술 형태의 비정형 문서로 구성돼 있다. 특히 한국어 문장 속에 영어 의학 용어가 혼재된 방식으로 작성되는 경우가 많아, 단일 언어 기반 인공지능 모델을 적용할 경우 분석 정확도가 떨어지는 한계가 지적돼 왔다.
이에 연구진은 한·영 의료 어휘 체계와 대규모 말뭉치를 활용해 추가 사전학습을 수행한 이중언어 인공지능 모델을 개발했다. 국내 임상 현장의 언어적 특성을 반영해 모델을 고도화함으로써 실제 의료 데이터 환경에 적합한 분석 체계를 구현한 것이 특징이다.
개발된 모델을 의료현장에서 수집한 흉부 CT 판독문에 적용해 다중 질환 분류 분석을 수행한 결과, 최대 종합정확도 0.94를 달성했다. 종합정확도는 질환 판별 정확도와 검출 능력을 종합적으로 평가하는 지표로, 0.9 이상일 경우 임상 활용 가능성을 검토할 수 있는 수준으로 평가된다. 연구진은 이를 통해 해당 모델의 실제 임상 적용 가능성을 확인했다고 설명했다.
이번 연구는 국립보건연구원이 추진 중인 ‘비정형 의료 데이터 분석을 위한 인공지능 알고리즘 기술 개발 사업’의 일환으로 진행됐으며, 고려대학교 의과대학(연구책임자 주형준 교수)과 공동으로 수행됐다.
연구를 주도한 주형준 교수는 “이번 연구는 국내 임상 현장 특성을 반영한 이중언어 의료 언어모델을 구현하고, 실제 의료데이터 검증을 통해 임상 적용 가능성을 확인했다는 점에서 의미가 있다”고 밝혔다.
국립보건연구원 헬스케어인공지능연구과는 현재 코호트 기반 멀티모달 데이터를 활용한 인공지능 모델 개발 연구를 수행하고 있으며, 연구자와 의료기관이 활용할 수 있는 의료 인공지능 데이터와 연구 생태계 조성을 지속 지원할 계획이다.
이번 연구로 개발된 이중언어 인공지능 모델은 국제 인공지능 개발 플랫폼인 GitHub(github.com/NIHxAI)에 공개될 예정이다.
임승관 질병관리청장은 “이번 성과는 국내 의료기관에서 생성되는 전자의무기록 데이터를 보다 체계적으로 분석·활용할 수 있는 인공지능 기반을 구축했다는 점에서 중요하다”며 “의료데이터의 활용 가치를 높이고 국내 인공지능 연구 역량을 한 단계 끌어올리는 계기가 될 것”이라고 말했다.













