C#提取PDF文本和图片-创新互联
任务要求:
- 提取PDF文档中的文本
- 提取PDF文档中的图片
所需工具:
- Free Spire.PDF for .NET 4.3 (免费版)
实现代码:
【示例 1 】提取文本
创新互联专注于企业网络营销推广、网站重做改版、埇桥区网站定制设计、自适应品牌网站建设、H5开发、商城建设、集团公司官网建设、成都外贸网站建设公司、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为埇桥区等各大城市提供网站开发制作服务。using Spire.Pdf;
using System;
using System.IO;
using System.Text;
namespace ExtractText
{
class Program
{
static void Main(string[] args)
{
//加载文档
PdfDocument document = new PdfDocument();
document.LoadFromFile("测试文档.pdf");
//实例化StringBuilder类,获取文本
StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());
//保存提取后的文本内容到.txt文档
String fileName = "TextFromPDF.txt";
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start("TextFromPDF.txt");
}
}
}
文本提取效果:
【示例 2 】提取图片
using System;
using System.Collections.Generic;
using System.Text;
using System.Drawing;
using Spire.Pdf;
namespace ExtractImagesFromPDF
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类,并加载测试文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("测试文档.pdf");
//实例化List类
List ListImage = new List();
for (int i = 0; i < doc.Pages.Count; i++)
{
// 获取 Spire.Pdf.PdfPageBase类对象
PdfPageBase page = doc.Pages[i];
// 提取图片
Image[] images = page.ExtractImages();
if (images != null && images.Length > 0)
{
ListImage.AddRange(images);
}
}
if (ListImage.Count > 0)
{
for (int i = 0; i < ListImage.Count; i++)
{
Image image = ListImage[i];
image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);
}
System.Diagnostics.Process.Start("image1.png");
}
}
}
}
图片提取效果:
创新互联www.cdcxhl.cn,专业提供香港、美国云服务器,动态BGP最优骨干路由自动选择,持续稳定高效的网络助力业务部署。公司持有工信部办法的idc、isp许可证, 机房独有T级流量清洗系统配攻击溯源,准确进行流量调度,确保服务器高可用性。佳节活动现已开启,新人活动云服务器买多久送多久。
分享标题:C#提取PDF文本和图片-创新互联
转载来源:http://myzitong.com/article/cccjjo.html