노리 형태소 분석기 이해하기 (1/2)
노리는 Lucene 7.4 (= ElasticSearch 6.4) 부터 제공되는 ES 공식 한국어 형태소 분석기이다. 노리 가 만들어지기까지 어떤 과정을 거쳐왔는지 살펴보고, 다음글에서는 노리가 어떻게 문장에서 형태소를 분석하는지 알아볼 것이다. 노리가 세상에 나오기까지 💡 말뭉치가 뭐야? 도서관,1781,3535,2110,NNG,*,T,도서관,Compound,*,*,도서/NNG/*+관/NNG/* 이런거다. 예를 들면 형태소 분석기를 만든다고 할 때, “[도서관]은 일반명사인 [도서]와 일반명사인 [관]으로 분리돼” 같이 학습을 위해 필요한 데이터를 뜻한다. (노리는 81만개 이상) 영어로는 코퍼스(corpus) 라고 부른다. 1. 노리의 조상은 mecab 이라는 일본어 형태소 분석엔진이다. mecab ..