3.2. 隐马尔可夫模型 HMM(Hidden Markov Model)

前面的 n 元模型能够解决歧义的问题,但是,却不能很好解决未登录词的问题,所谓未登录词,是指没有见过的词,或者说没有在我们字典中的词于是后来人们提出了基于字标注的分词,比如这样一句话“我喜欢天安门”就可以变成这样的标注“我 s 喜 b 欢 e 天 b 安 m 门 e”通过 s(single)b(begin)m(middle)e(end)这样的标注把分词问题转变为标注问题,当第一次提出字标注算法时,在分词大会上也是取得了惊人的准确率。

HMM 隐藏马尔可夫链模型就是这样一个字标注的分词算法,假设原来的句子序列是 a1a2a3…an,标注序列是 c1c2…cn,那么 HMM 是要求这样的式子

argmaxΠP(ci∣∣ci−1)∗P(ai∣∣ci)

在我的 SnowNLP 这个项目里有去实现 HMM 的分词。