linlin的博客 : 北京时间9月5日,在世锦赛刚刚结束之后

欢迎光临金婴会社区
Welcome to Gold Club Society

登录 | 注册 | 帮助 | 金婴会网站

联合订阅

标签

未创建或使用标签

linlin的博客

北京时间9月5日,在世锦赛刚刚结束之后

最近折腾毕业论文,搞得人没心情写blog了。于是觉得不如把毕业论文里的东西贴出来当blog算了。这里主要介绍了我自己的中文分词算法,我觉得它比现在开源代码比较多的中文匹配法要好多了。这里的内容没有任何背景知识啥的,毕竟论文里的背景知道我也是从网上粘贴的 freeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeef ,呵呵!因此这篇文章的内容可能适合做搜索引擎的人。如果要了解中文分词算法在搜索引擎中的重要性,或者最大匹配法的思想与过程,请去网上搜吧,资料还是蛮多的。 1.1.1 最大匹配法分词的缺陷 尽管最大匹配法分词是常用的解决的方案,但是无疑它存在很多明显的缺陷,这些缺陷也限制了最大匹配法在大型搜索系统中的使用频率。最大匹配法的问题有以下几点: 一、长度限制 由于最大匹配法必须首先设定一个匹配词长的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。我们来看一下以下两种情况:
已发表 2006年9月8日 17:21 作者 linlin

评论

尚无任何评论
要发表评论,请您先登录金婴社区
ICP号:沪ICP备07004587号 Copyright © 2001-2007 International Nutrition Company Ltd A/S All rights reserved. Dumex