中文分词的算法
中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。
如何进行分词?对于程序员来说,最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例如:
输入文本: 我是学生 词: 我/是/学生
其实这样做了以后,可以解决60%的问题。总结起来,分词的算法分为:
-
基于字符串匹配的分词方法
-
基于理解的分词方法
-
基于统计的分词方法