PDF文本转换工具

PDFBox 一组Java API用来获取pdf文件内容,可以直接转换为lucene可处理的document.

XPDF 一个开源工具,不是用java写的,内含一个pdftotext的命令行工具,可以把pdf转换为文本文件

pdftohtml 基于xpdf,可以把pdf转换为html

JPedal 一组java API用来获取pdf中的文本和图片

Simple Text Extractor Library 同样用来获取pdf中的文本,依赖PDFBox

Comments are closed.