확률 알고리즘은 확률을 사용하여 단어의 루트 형태를 식별하는 것을 포함합니다. 확률 알고리즘은 확률 모델을 개발하기 위해 형태 관계를 굴절시키기 위해 루트 형식 테이블에서 학습 (“학습”)됩니다. 이 모델은 일반적으로 접미사 스트리핑 또는 lemmatisation에 있는 것과 본질적으로 유사한 복잡한 언어 규칙의 형태로 표현됩니다. 형태소 분석은 학습된 모델에 굴절된 형태를 입력하고 모델이 내부 규칙 집합에 따라 루트 양식을 생성하도록 함으로써 수행되며, 이는 접미사 제거 및 레머화와 유사합니다. 가장 적절한 규칙, 또는 단어를 줄기 그냥 같은 단어를 반환할지 여부, 또는 두 개의 서로 다른 규칙을 순차적으로 적용할지 여부는 출력 단어가 정확할 확률이 가장 높다는 이유로 적용됩니다(즉, 말하자면 , 일반적으로 측정되는 방법입니다 잘못된 것의 가장 작은 확률입니다). 형태소 분석은 비슷한 기본 의미를 가진 단어를 함께 그룹화하기 위한 대략적인 방법으로 사용됩니다. 예를 들어 “수선화”를 언급하는 텍스트는 아마도 “수선화”를 언급하는 텍스트와 밀접한 관련이 있을 것입니다( s 제외). 그러나 어떤 경우에는 동일한 형태 학적 줄기를 가진 단어는 밀접하게 관련되지 않은 관용적인 의미를 가지고 있습니다 : “마케팅”을 검색하는 사용자는 “시장”을 언급하지만 “마케팅”이 아닌 대부분의 문서에 만족하지 않습니다. 형태소 분석 및 Lemmatization은 추가 처리를 위해 텍스트, 단어 및 문서를 준비하는 데 사용되는 자연어 처리 분야의 텍스트 정규화(또는 Word 정규화라고도 함) 기술입니다. 형태소 분석과 레마화는 연구되었으며, 알고리즘은 1960년대부터 컴퓨터 과학에서 개발되었습니다. 이 튜토리얼에서는 배경, 일부 유명한 알고리즘, 형태소 분석 및 Lemmatization의 응용 프로그램 및 Python을 사용하여 단어, 문장 및 문서를 줄기및 레밍하는 방법을 다루는 실용적인 접근 방식으로 형태소 분석 및 Lemmatization에 대해 배우게됩니다. 자연어 처리 작업에 대한 파이썬에서 제공하는 자연어 도구 키트 패키지입니다 nltk 패키지.
형태소 분석과 Lemmatization은 모두 굴절된 단어의 루트 형태를 생성합니다. 차이점은 줄기가 실제 단어가 아닐 수도 있지만 lemma는 실제 언어 단어라는 것입니다.