apache pdfbox怎么用
文章插图
Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库,它可以用于创建新的PDF文档,修改现有的PDF文档,还可以从PDF文档中提取所需的内容 。Apache PDFBox还包含了数个命令行工具 。
Apache PDFbox于2016年4月26日发布了最新的2.0.1版 。
如何用PDFBox-1.8.3打印文件我们需要PDFBox的Jar包,所以我们先在百度搜索一下“PDFBox” 。点击“Apache PDFBox | A Java PDF Library”这个链接 。
进入Apache PDFBox介绍页面,我们可以看到PDFBox可以实现这么多操作,我们这里只介绍如何提取文本,也就是第一项“Extract Text-Extract Unicode text from PDF files.”
然后我们点击左侧导航中的“Downloads”(下载),我们进入下载页面 。
此时我们希望下载两个Jar文件,一个是“pdfbox-app-1.8.10.jar”,另一个是“fontbox-1.8.10.jar”,你可以发现还有一个“pdfbox-1.8.10.jar”,为什么不下载它呢?上面那个名称中含有“app”的Jar,它是功能最完整的,所以下载它比较好 。
4
将下载的这两个Jar文件加到程序的libraries中 。说一下步骤,右击工程-->选择“Build Path”-->"Configure Build Path...",弹出窗口,选择左侧导航中的“Java Build Path”,再选择“libraries”选项卡,点击“Add External JARs”,再选择上刚刚下载的那两个Jar文件,点击“OK”即可 。
pdfbox itext哪个好用PDFBox和IText是解析PDF文档最常用的两种java API 。
1、 使用PDFBox时,需要添加:pdfbox-2.0.0.jar、fontbox-2.0.0.jar、commons-logging-1.2.jar;
2、 使用iText时,需要添加:itextpdf-5.5.9.jar;
话不多说,直接看具体代码 。
import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfReaderContentParser;
import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;
import com.itextpdf.text.pdf.parser.TextExtractionStrategy;
public class PdfPaser {
/**
* 使用IText API解析
* @param filePath 待解析pdf文档路径
* @return 解析得到的pdf文本字符串
* @throws Exception
*/
public String paserPDFFileByIText(String filePath) throws Exception {
TextExtractionStrategy strategy = null;
PdfReader reader = new PdfReader(filePath);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
StringBuffer buffer = new StringBuffer();
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
buffer.append(strategy.getResultantText());
}
return buffer.toString();
}
/**
* 使用PdfBox API解析
* @param filePath 待解析pdf文档路径
* @return 解析得到的pdf文本字符串
* @throws Exception
*/
public String paserPDFFileByPdfBox(String filePath) throws Exception {
File file = new File(filePath);
PDDocument document = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String result = stripper.getText(document);
if(document != null){
document.close();
}
return result;
}
}
用pdfbox怎么将word转换成pdf?【pdfbox开发文档,pdfbox读取pdf表格】你好!
用扫描仪可以的 。只适合少页的 。
如有疑问,请追问 。
- 移动互联网开发技术,手机app开发
- 手机word下划线怎么打出来,文字下划线怎么打出来
- wps背景图片怎么设置大小,wps背景图片怎么设置一张
- 智办公内部app,东航内部app
- 网络开发工程师,网络开发软件
- 怎样做个app软件开发,怎样做个app软件代理
- 红米手机开发者选项在哪里关闭,红米手机开发者选项在哪里设置
- 广州PHP开发工程师,广州PHP软件开发
- 怎样复制百度文库里的付费文档,怎样复制百度文库的文章
- word文档如何给文章添加标题,word表格怎么顶头打字