中文分词器解析
pilotshanlp分词器接口设计:
提供外部接口:
分词器封装为静态工具类,并提供了简单的接口
标准分词
标准分词是最常用的分词器,基于HMM-Viterbi实现,开启了中国人名识别和音译人名识别,调用方法如下:
qafList<citationTerm> termList = HanLP.gment("商品和服务");
System.out.println(termList);
∙ 其实是对 的包装。
/**
* 分词
*
* @param text 文本
* @return切分后的单词
*/
publicstaticList<Term>gment(Stringtext)
{
returnStandardTokenizer.gment(text.toCharArray());
}
/**
* 创建一个分词器<br>
* 这是一个工厂方法<br>
* 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器
* @return一个分词器
*/
publicstaticSegmentnewSegment()
{
returnnewViterbiSegment();// Viterbi分词器是目前效率和效果的最佳平衡
}
publicclassStandardTokenizer
{
/**
* 预置分词器
*/
publicstaticfinalSegmentSEGMENT = HanLP.newSegment();
/**
* 分词
* @param text 文本
* @return分词结果
*/
publicstaticList<Term>gment(Stringtext)
{
returnSEGMENT.g(text.toCharArray());
}
/**
* 分词
tinyint * @param text 文本
* @return分词结果
*/
publicstaticList<Term>gment(char[]text)
怎样学好英语口语
{
returnSEGMENT.g(text);
}
/**
fish off
* 切分为句子形式
* @param text 文本
tibia
* @return句子列表
*/
publicstaticList<List<Term>>g2ntence(Stringtext)
{
soareturnSEGMENT.g2ntence(text);
}
}
publicstaticSegmentnewSegment()
随身翻译
{
returnnewViterbiSegment();// Viterbi分词器是目前效率和效果的最佳平衡
}
/**
* Viterbi分词器<br>
圣诞节英语手抄报资料 * 也是最短路分词,最短路求解采用Viterbi算法
*
* @authorhankcs
*/
publicclassViterbiSegmentextendsWordBadGenerativeModelSegment
NLP分词
NLP分词 NLPTokenizer 会执行全部命名实体识别和词性标注。,调用方法如下:
List<Term> termList = NLPTokenizer.gment("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
System.out.println(termList);
∙ NLP分词 NLPTokenizer 会执行全部命名实体识别和词性标注。
∙ 所以速度比标准分词慢,并且有误识别的情况。
publicclassNLPTokenizer
{
/**
* 预置分词器
*/
publicstaticfinalSegmentSEGMENT = HanLP.newSegment().enableNameRecognize(tr
ue).enableTranslatedNameRecognize(true).enableJapaneNameRecognize(true).enablePlaceRecognize(true).enableOrganizationRecognize(true).enablePartOfSpeechTagging(true);