1.lucene中的document对txt文件是直接支持的,对于pdf,doc,html等则需经过解析成txt的形式,网上开源的解析工具包有pdfbox,poi,nekohtml。
2.indexwriter中第三个boolean参数标明是重写索引还是增量索引,若是增量索引须注意在上一次所以结束时writer已经close了,否则函数是无效的。
3.lucene的索引次序是字典序的,也就是说我们只要记录最后一个索引的文件,下次索引能方便定位直接从这个文件开始。
4.索引何时写入磁盘文件是一个问题,这时你必须根据程序的要求来抉择,如果说你考虑到索引随时有可能会停止,你可以在索引完一个文件后马上把它写入磁盘,但这样做对性能的损害是很大的,众所周知,读内存的速度远远快于读硬盘的速度,如果对此要求不高,你可以规定索引完多少后一起写入磁盘。
5.要更新索引,先得删除原来的索引项,然后再新添进去,lucene不支持直接的更新

具体的一些东西我不想讲了,看一下lucene的API和《在应用中加入全文检索功能 ——基于Java的全文索引引擎Lucene简介》的介绍文章你会对lucene有一个大致印象的,当然在做项目的过程中我也发现天下中文文章一大抄的情况,相比较而言,英文的技术文章原创的多,现在中国的开发人员是连翻译都没兴趣了,好不容易的一篇原创被东载西载,我们还是缺乏积极的精神,这样下去中国的开源社区怎么会繁荣呢?
也许真的是D版惹的祸,得来太容易,使人丧失了危机感,开源在中国也就成了海市蜃楼,不知道一直用微软的东西是否是一种 

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐