PDFBox 一组Java API用来获取pdf文件内容,可以直接转换为lucene可处理的document.
XPDF 一个开源工具,不是用java写的,内含一个pdftotext的命令行工具,可以把pdf转换为文本文件
pdftohtml 基于xpdf,可以把pdf转换为html
JPedal 一组java API用来获取pdf中的文本和图片
Simple Text Extractor Library 同样用来获取pdf中的文本,依赖PDFBox

Life for idea, and make them happen
PDFBox 一组Java API用来获取pdf文件内容,可以直接转换为lucene可处理的document.
XPDF 一个开源工具,不是用java写的,内含一个pdftotext的命令行工具,可以把pdf转换为文本文件
pdftohtml 基于xpdf,可以把pdf转换为html
JPedal 一组java API用来获取pdf中的文本和图片
Simple Text Extractor Library 同样用来获取pdf中的文本,依赖PDFBox
Comments are closed.