pdfbox开发文档,pdfbox读取pdf表格

apache pdfbox怎么用

pdfbox开发文档,pdfbox读取pdf表格

文章插图
Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库,它可以用于创建新的PDF文档,修改现有的PDF文档,还可以从PDF文档中提取所需的内容 。Apache PDFBox还包含了数个命令行工具 。
Apache PDFbox于2016年4月26日发布了最新的2.0.1版 。
如何用PDFBox-1.8.3打印文件我们需要PDFBox的Jar包,所以我们先在百度搜索一下“PDFBox” 。点击“Apache PDFBox | A Java PDF Library”这个链接 。

进入Apache PDFBox介绍页面,我们可以看到PDFBox可以实现这么多操作,我们这里只介绍如何提取文本,也就是第一项“Extract Text-Extract Unicode text from PDF files.”

然后我们点击左侧导航中的“Downloads”(下载),我们进入下载页面 。
此时我们希望下载两个Jar文件,一个是“pdfbox-app-1.8.10.jar”,另一个是“fontbox-1.8.10.jar”,你可以发现还有一个“pdfbox-1.8.10.jar”,为什么不下载它呢?上面那个名称中含有“app”的Jar,它是功能最完整的,所以下载它比较好 。

4
将下载的这两个Jar文件加到程序的libraries中 。说一下步骤,右击工程-->选择“Build Path”-->"Configure Build Path...",弹出窗口,选择左侧导航中的“Java Build Path”,再选择“libraries”选项卡,点击“Add External JARs”,再选择上刚刚下载的那两个Jar文件,点击“OK”即可 。
pdfbox itext哪个好用PDFBox和IText是解析PDF文档最常用的两种java API 。
1、 使用PDFBox时,需要添加:pdfbox-2.0.0.jar、fontbox-2.0.0.jar、commons-logging-1.2.jar;
2、 使用iText时,需要添加:itextpdf-5.5.9.jar;

话不多说,直接看具体代码 。
import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfReaderContentParser;
import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;
import com.itextpdf.text.pdf.parser.TextExtractionStrategy;

public class PdfPaser {
/**
* 使用IText API解析
* @param filePath 待解析pdf文档路径
* @return 解析得到的pdf文本字符串
* @throws Exception
*/
public String paserPDFFileByIText(String filePath) throws Exception {
TextExtractionStrategy strategy = null;

PdfReader reader = new PdfReader(filePath);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
StringBuffer buffer = new StringBuffer();

for (int i = 1; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
buffer.append(strategy.getResultantText());
}

return buffer.toString();
}

/**
* 使用PdfBox API解析
* @param filePath 待解析pdf文档路径
* @return 解析得到的pdf文本字符串
* @throws Exception
*/
public String paserPDFFileByPdfBox(String filePath) throws Exception {
File file = new File(filePath);

PDDocument document = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String result = stripper.getText(document);

if(document != null){
document.close();
}
return result;
}
}
用pdfbox怎么将word转换成pdf?【pdfbox开发文档,pdfbox读取pdf表格】你好!

用扫描仪可以的 。只适合少页的 。

如有疑问,请追问 。