使用lucene的几个注意点

sleepbird

706人浏览 · 2006-08-01 23:54:00

sleepbird · 2006-08-01 23:54:00 发布

1.lucene中的document对txt文件是直接支持的，对于pdf，doc，html等则需经过解析成txt的形式，网上开源的解析工具包有pdfbox,poi,nekohtml。
2.indexwriter中第三个boolean参数标明是重写索引还是增量索引，若是增量索引须注意在上一次所以结束时writer已经close了，否则函数是无效的。
3.lucene的索引次序是字典序的，也就是说我们只要记录最后一个索引的文件，下次索引能方便定位直接从这个文件开始。
4.索引何时写入磁盘文件是一个问题，这时你必须根据程序的要求来抉择，如果说你考虑到索引随时有可能会停止，你可以在索引完一个文件后马上把它写入磁盘，但这样做对性能的损害是很大的，众所周知，读内存的速度远远快于读硬盘的速度，如果对此要求不高，你可以规定索引完多少后一起写入磁盘。
5.要更新索引，先得删除原来的索引项，然后再新添进去，lucene不支持直接的更新

具体的一些东西我不想讲了，看一下lucene的API和《在应用中加入全文检索功能 ——基于Java的全文索引引擎Lucene简介》的介绍文章你会对lucene有一个大致印象的，当然在做项目的过程中我也发现天下中文文章一大抄的情况，相比较而言，英文的技术文章原创的多，现在中国的开发人员是连翻译都没兴趣了，好不容易的一篇原创被东载西载，我们还是缺乏积极的精神，这样下去中国的开源社区怎么会繁荣呢？
也许真的是D版惹的祸，得来太容易，使人丧失了危机感，开源在中国也就成了海市蜃楼，不知道一直用微软的东西是否是一种