Posts Tagged ‘lucene’

PDF文本转换工具

PDFBox 一组Java API用来获取pdf文件内容,可以直接转换为lucene可处理的document.
XPDF 一个开源工具,不是用java写的,内含一个pdftotext的命令行工具,可以把pdf转换为文本文件
pdftohtml 基于xpdf,可以把pdf转换为html
JPedal 一组java API用来获取pdf中的文本和图片
Simple Text Extractor Library 同样用来获取pdf中的文本,依赖PDFBox