2KB项目,专业的源码交易网站 帮助 收藏 每日签到

C# 实现将 PDF 转文本的功能

  • 时间:2019-01-23 18:37 编辑:2KB 来源:2KB.COM 阅读:269
  • 扫一扫,手机访问
  • 分享
摘要:
iTextSharp PDFBox 英文原文:Converting PDF to Text in C#

更新

2014年2月27日: 这篇文章最初只描述使用 PDFBox 来解析PDF文件。现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了。

这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本(1.8.4)。可以从 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下载包含所有依赖内容的完整项目(要消除依赖关系有点棘手)。

如何解析 PDF 文件

在.NET中从PDF文件里提取文本的几种主要方法有:

  • Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现;

  • iTextSharp;

  • PDFBox。

不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。

Adobe PDF IFilter

为了使用 IFilter 接口来解析 PDF 文件,你需要:

样例代码:

using IFilter;

// ...

public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}

缺点:

  1. 使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。

  2. 需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案,会很痛苦。

iTextSharp

iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一个 Java 的PDF 操作库 iText(http://itextpdf.com/) 的.NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。

例程:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

// ...
 
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();

    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }

    return text.ToString();
  }
}

信用证: 成员号 10364982

缺点:

  1. 需要许可证(如果你不喜欢 AGPL许可证 的话)

PDFBox

PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。

幸运的是,PDFBox有一个使用IKVM.NET开发的.NET版本 (只需访问PDFBox下载页)。

在.NET中使用PDFBox需要引用:

  • IKVM.OpenJDK.Core.dll

  • IKVM.OpenJDK.SwingAWT.dll

  • pdfbox-1.8.4.dll

并将下列文件复制到bin文件夹下:

  • commons-logging.dll

  • fontbox-1.8.4.dll

  • IKVM.OpenJDK.Util.dll

  • IKVM.Runtime.dll

使用PDFBox解析PDF十分简单:

using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;

// ...

private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

编译后的大小加起来差不多有18MB:

  • IKVM.OpenJDK.Core.dll (4 MB)

  • IKVM.OpenJDK.SwingAWT.dll (6 MB)

  • pdfbox-1.8.4.dll (4 MB)

  • commons-logging.dll (82 kB)

  • fontbox-1.8.4.dll (180 kB)

  • IKVM.OpenJDK.Util.dll (2 MB)

  • IKVM.Runtime.dll (1 MB)

速度还可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。

感谢bobrien100提供的改进建议。

缺点:

  1. IKVM.NET依赖 (18 MB)

  2. 速度(尤其是IKVM.NET的启动时间)

相关信息

其它翻译版本 (1) 加载中 本文中的所有译文仅用于学习和交流目的,转载请务必注明文章译者、出处、和本文链接。 2KB翻译工作遵照 CC 协议,如果我们的工作有侵犯到您的权益,请及时联系我们。


2KB项目(www.2kb.com,源码交易平台),提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务

  • 全部评论(0)
资讯详情页最新发布上方横幅
最新发布的资讯信息
【计算机/互联网|】Nginx出现502错误(2020-01-20 21:02)
【计算机/互联网|】网站运营全智能软手V0.1版发布(2020-01-20 12:16)
【计算机/互联网|】淘宝这是怎么了?(2020-01-19 19:15)
【行业动态|】谷歌关闭小米智能摄像头,因为窃听器显示了陌生人家中的照片(2020-01-15 09:42)
【行业动态|】据报道谷歌新闻终止了数字杂志,退还主动订阅(2020-01-15 09:39)
【行业动态|】康佳将OLED电视带到美国与LG和索尼竞争(2020-01-15 09:38)
【行业动态|】2020年最佳AV接收机(2020-01-15 09:35)
【行业动态|】2020年最佳流媒体设备:Roku,Apple TV,Firebar,Chromecast等(2020-01-15 09:31)
【行业动态|】CES 2020预览:更多的流媒体服务和订阅即将到来(2020-01-08 21:41)
【行业动态|】从埃隆·马斯克到杰夫·贝佐斯,这30位人物定义了2010年代(2020-01-01 15:14)
联系我们

Q Q: 7090832

电话:400-0011-990

邮箱:7090832@qq.com

时间:9:00-23:00

联系客服
商家入住 服务咨询 投拆建议 联系客服
0577-67068160
手机版

扫一扫进手机版
返回顶部