Java读取PDF中的文本和图片-创新互联

本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。

站在用户的角度思考问题，与客户深入沟通，找到向阳网站设计与向阳网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：网站设计、做网站、企业官网、英文网站、手机端网站、网站推广、域名申请、虚拟空间、企业邮箱。业务覆盖向阳地区。

使用工具：Free Spire.PDF for Java（免费版）
Jar文件获取导入：
方法1：通过官网下载jar文件包。下载后，解压文件，并将lib文件夹下的Spire.Pdf.jar文件导入java程序。导入后如下图：

方法2：可通过maven仓库安装导入，可参考导入方法。

Java代码示例
【示例1】读取PDF中的文本

import com.spire.pdf.*;

import java.io.FileWriter;
import java.io.IOException;

public class ExtractText {
    public static void main(String[]args) throws Exception {
        //加载测试文档
        PdfDocument pdf = new PdfDocument("sample.pdf");

        //实例化StringBuilder类
        StringBuilder sb = new StringBuilder();
        //定义一个int型变量
        int index = 0;

        //遍历PDF文档中每页
        PdfPageBase page;
        for (int i= 0; i

文本读取结果：

【示例2】读取PDF中的图片

import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;

public class ExtractImg {
    public static void main(String[] args) throws Exception{
        //加载测试文档
        PdfDocument pdf = new PdfDocument();
        pdf.loadFromFile("test.pdf");

        //定义一个int型变量
        int index = 0;

        //遍历PDF每一页
        for (int i= 0;i< pdf.getPages().getCount(); i ++){
           //获取PDF页面
            PdfPageBase page = pdf.getPages().get(i);

            //使用extractImages方法获取页面上图片
            for (BufferedImage image : page.extractImages()) {

                //指定输出图片名称
                File output = new File( String.format("Image_%d.png", index++));
                //将图片保存为PNG格式文件
                ImageIO.write(image, "PNG", output);
            }
        }
    }
}

图片读取结果：

（本文完）

创新互联www.cdcxhl.cn，专业提供香港、美国云服务器，动态BGP最优骨干路由自动选择，持续稳定高效的网络助力业务部署。公司持有工信部办法的idc、isp许可证，机房独有T级流量清洗系统配攻击溯源，准确进行流量调度，确保服务器高可用性。佳节活动现已开启，新人活动云服务器买多久送多久。

                

                网站标题：Java读取PDF中的文本和图片-创新互联                

                转载注明：http://myzitong.com/article/dppgjs.html


        
            其他资讯
            
                
                        关注网上“民声”东方网将常设“女代表博客”(组图)
                    

                        担心脑机接口控制人类思想？神经科学家：想多了
                    

                        ChinaJoy上的热词“元宇宙”到底是什么？
                    

                        2022年，线上营销之路还可以走吗？
                    

                        不可被破解的“量子互联网”，离我们还有多远？