3.7. 统计模型

很快基于字典的分词还是会暴露出很多的问题,最主要的问题就是歧义的问题,比如“武汉市长江大桥”,不同的分词可能会变成“武汉/市长/江大桥”和“武汉市/长江/大桥”,显然字典匹配是不能解决这样的歧义问题的,于是有了统计的分词算法。在我的这篇文章里介绍的就是一元模型的分词算法,对于一个句子序列 a1a2a3…an 变成最后的词序列 A1A2A3…Am,一元模型是希望

argmaxΠmi=1P(Ai)

同样的 n 元模型即是

argmaxΠP(Ai∣∣Ai−1,Ai−2…,Ai−n+1)

我的这篇文章是一元模型的求法,于是统计模型的诞生有些的解决了分词问题中的歧义问题。