7.1.21. 中科院-NLPIR

主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取; 支持用户专业词典与微博分析。NLPIR 系统支持多种编码、多种操作系统、多种开发语言与平台。

7.1.21.1. 功能

##中英文混合分词功能

自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

##关键词提取功能

采用交叉信息熵的算法自动计算关键词,包括新词与已知词,下面是对十八届三中全会报告部分内容的关键词提取结果。

7.1.21.2. 新词识别与自适应分词功能

从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

7.1.21.3. 用户专业词典功能

可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。