2012年度  第5期


标题:基于Lucene的PDF文档的全文检索的实现
作者:黄江平 黄理灿 徐玲
作者单位:浙江理工大学信息学院,浙江 杭州 310018
关键字:Lucene,PDF,全文检索,高亮显示
摘要:在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。