⽂本预处理——词形还原
简单说来,词形还原(Lemmatization)就是去掉单词的词缀,提取单词的主⼲部分:在的nltk模块中,使⽤WordNet为我们提供了稳健的词形还原的函数。
夸自己的句子
from nltk.stem import WordNetLemmatizer
新课标大语文
wnl = WordNetLemmatizer()鲁迅的父亲
# lemmatize nouns鲤鱼越龙门
print(wnl.lemmatize('cars', 'n'))
农历是阴历
print(wnl.lemmatize('men', 'n'))
水的光解# lemmatize verbs
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('ate', 'v'))
# lemmatize adjectives
print(wnl.lemmatize('saddest', 'a'))荆州旅游
仔姜兔的做法
print(wnl.lemmatize('fancier', 'a'))
wnl.lemmatize()函数可以进⾏词形还原,第⼀个参数为单词,第⼆个参数为该单词的词性,如名词,动词,形容词等,返回的结果为输⼊单词的词形还原后的结果。