转载：给Lucene加入性能更好的中文分词

ljm3256748

浏览: 43280 次
性别:
来自: 地球

最近访客更多访客>>

得不到的爱2

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

心情日记

lucene 体育 JNI 算法 junit

给Lucene加入性能更好的中文分词

转自：http://blog.donews.com/windshow/archive/2005/09/23/564655.aspx

Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram.
这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多.
经过认真研究了Lucene的Analysis包,我写了一个TjuChineseAnalyzer,效果不错.

简要介绍一下:
TjuChineseAnlyzer 的功能强大,在中文分词方面使用JNI调用ICTCLAS(中国科学院,算法为隐马尔可夫模型)的java接口. 所以其在中文方面性能上同与ICTCLAS.其在英文分词上采用了Lucene的StopAnalyzer,可以去除 stopWords,而且可以不区分大小写,过滤掉各类标点符号.完全兼容Lucene的底层分词格式.

核心代码如下:
/**
*Author:zhangbufeng
* TjuAILab (天津大学人工智能实验室)
* 2005.9.23
*
* TjuChineseAnlyzer的功能相当强大,在中文分词方面由于其调用的为ICTCLAS的java接口.
* 所以其在中文方面性能上同与ICTCLAS.其在英文分词上采用了Lucene的StopAnalyzer,可以去除
* stopWords,而且可以不区分大小写,过滤掉各类标点符号.
*/
public final class TjuChineseAnalyzer extends Analyzer {
private Set stopWords;

/** An array containing some common English words that are not usually useful
for searching. */
//可以在此扩展English stop words和Chinese stop words
public static final String[] ENGLISH_STOP_WORDS = {
"a", "an", "and", "are", "as", "at", "be", "but", "by",
"for", "if", "in", "into", "is", "it",
"no", "not", "of", "on", "or", "s", "such",
"t", "that", "the", "their", "then", "there", "these",
"they", "this", "to", "was", "will", "with",
"我","我们"
};

/** Builds an analyzer which removes words in ENGLISH_STOP_WORDS. */
public TjuChineseAnalyzer() {
stopWords = StopFilter.makeStopSet(ENGLISH_STOP_WORDS);
}

/** Builds an analyzer which removes words in the provided array. */
public TjuChineseAnalyzer(String[] stopWords) {
this.stopWords = StopFilter.makeStopSet(stopWords);
}

/** Filters LowerCaseTokenizer with StopFilter. */
public TokenStream tokenStream(String fieldName, Reader reader) {
try{
ICTCLAS splitWord = new ICTCLAS();
String inputString = FileIO.readerToString(reader);
String resultString = splitWord.paragraphProcess(inputString);
return new StopFilter(new LowerCaseTokenizer(new StringReader(resultString)),stopWords);
}
catch (IOException e){
System.out.println("转换出错");
return null;
}
}
}

进行测试:
我用Junit进行了测试,效果很好.同时我用TjuChineseAnalyzer进行索引,查询,测试
效果都很好.
下边给出用TjuChineseAnalyzer切分的词语
原文:
体育讯　在被尤文淘汰之后，皇马主帅博斯克拒绝接受媒体对球队后防线的批评，同时还为自己排出的首发阵容进行了辩护。“失利是全队的责任，而不仅仅是后防线该受指责，”博斯克说，“我并不认为我们踢得一塌糊涂。”“我们进入了半决赛，而且在晋级的道路上一路奋
战。即使是今天的比赛我们也有几个翻身的机会，但我们面对的对手非常强大，他们踢得非常好。”“我们的球迷应该为过去几个赛季里我们在冠军杯中的表现感到骄傲。”博斯克还说。对于博斯克在首发中排出了久疏战阵的坎比亚索，赛后有记者提出了质疑，认为完全应该将队内的另一
名球员帕文派遣上场以加强后卫线。对于这一疑议，博斯克拒绝承担所谓的“责任”，认为球队的首发没有问题。“我们按照整个赛季以来的方式做了，对于人员上的变化我没有什么可说的。”对于球队在本赛季的前景，博斯克表示皇马还有西甲联赛的冠军作为目标。“皇家马德里在冠军
杯中战斗到了最后，我们在联赛中也将这么做。”
A Java User Group is a group of people who share a common interest in Java technology and meet on a regular basis to share technical ideas and information. The actual structure of a JUG can vary greatly - from a small number of friends and coworkers meeting informally in the evening, to a large group of companies based in the same geographic area. Regardless of the size and focus of a particular JUG, the sense of community spirit remains the same.
切分结果如下:

体育讯在被尤文淘汰之后皇马主帅博斯克拒绝接受媒体对球队后防线的批评同时还为自己排出的首发阵容进行了辩护失利是全队的责任而不仅仅是后防线该受指责博斯克说并不认为踢得一塌糊涂进入了半决赛而且在晋级的道路上一路奋战即使是今天的比赛也有几个翻身的机会但面对的对手非常强大他们踢得非常好的球迷应该为过去几个赛季里在冠军杯中的表现感到骄傲博斯克还说对于博斯克在首发中排出了久疏战阵的坎比亚索赛后有记者提出了质疑认为完全应该将队内的另一名球员帕文派遣上场以加强后卫线对于这一疑议博斯克拒绝承担所谓的责任认为球队的首发没有问题按照整个赛季以来的方式做了对于人员上的变化没有什么可说的对于球队在本赛季的前景博斯克表示皇马还有西甲联赛的冠军作为目标皇家马德里在冠军杯中战斗到了最后在联赛中也将这么做 java user group group people who share common interest java technology meet regular basis share technical ideas information actual structure jug can vary greatly from small number friends coworkers meeting informally evening large group companies based same geographic area regardless size focus particular jug sense community spirit remains same

评析:从结果可以看出其切分效果,过滤掉了stop words(包括英文和中文).去除所有的标点符号.

分享到：

转载：关于 lucene2.0 的创建、检索和删除 ...

2007-05-14 21:27
浏览 1653
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论