데이터큐브 데이터큐브입니다
    분석활용 분석활용
    비식별조치 비식별조치
    지식공유 지식공유
    주요사업 주요사업
    센터소개 센터소개

형태소사전

형태소사전(NIADic)이란?

기존 형태소 사전의 부족한 단어 수를 보완한 새로운 형태소 사전(NIADic) 을 개발해 제공함으로써 자체 형태소 사전 개발이 어려운 중소기업, 스타트업, 연구소, 학교에서 정확도 높은 텍스트 분석 가능

기존 형태소 사전
(37만 단어)

NIADic
(93만 단어)

시스템 사전(28만)

세종 사전(9만)

기존 형태소 사전

전문분야 단어 추가

(신조어, 법률, 의료 등)

기존 형태소 사전(SejongDic)과 NIADic의 텍스트 분석 결과 비교

기존 형태소 사전(SejongDic)과 NIADic의 텍스트 분석 결과 비교
세종Dic NIADic
이문열의 삼국지 1권 분석 (단어연관성 비교)
세종Dic의 이문열 삼국지 1권 분석 결과 이미지
NIADic의 이문열 삼국지 1권 분석 결과 이미지
  • NIADic을 사용하면 Sejong Dic 대비 적게는 2.56배~ 5.36배의 형태소가 발생하므로 더 정확한 결과 도출 가능
  • 어휘의 상호연관성 정도에서는 NIADic이 Sejong Dic 대비 2.3배 ~ 5.176배 정도로 많은 어휘량 간의 연관성을 보여줌
    따라서 연관성 분석을 통한 인사이트 창출 시 효과적

형태소사전(NIADic) 도입 효과

형태소사전(NIADic) 도입 효과
형태소 사전(NIADic) 도입 전 형태소 사전(NIADic) 도입 후
  • 개별기업/연구소에서 동일한 형태소사전 중복 개발
  • 중소기업, 스타트업 등 자체 형태소사전 확보에 애로
  • 단어수 부족 노후화 사전 활용으로 분석결과의 정확도, 신뢰도 저하(37만개)
    - 검색 단어 빈도수, 연관 분석어가 낮게 나옴
  • 연구자/대학 빅데이터 기반 분석, 응용이 미흡
  • 공통 형태소 사전 개방·재사용으로 중복 예산절감
  • 중소기업, 대학원생들 등 데이터 분석 활용이 용이
  • 최신 단어(신조어) 포함한 단어수 풍부하여 분석 정확도, 신뢰도 향상(93만개)
    - 단어 빈도수, 연관 분석어 정교화 등 품질 향상
  • 빅데이터 분석연구가 활발, 심층 분석이 가능

활용방법

K-ICT 빅데이터센터 자료실에서 파일 다운로드 바로가기

R의 형태소 분석 라이브러리(KONLP)의 useNIADic() 함수를 실행하여 자동으로 설치