C#如何读取pdf文本

发布网友发布时间：2022-04-25 14:39

共2个回答

热心网友时间：2023-10-21 12:05

NuGet包管理器 ->程序包管理器控制台 ->输入Install-Package Spire.PDF然后按回车安装dll
然后使用下面代码读取PDF文本
using System;
using System.IO;
using System.Text;
using Spire.Pdf;
namespace ExtractText_PDF
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类对象，并加载PDF文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("sample.pdf");

//实例化一个StringBuilder 对象
StringBuilder content = new StringBuilder();

//遍历文档所有PDF页面，提取文本
foreach (PdfPageBase page in doc.Pages)
{
content.Append(page.ExtractText());
}

//将提取到的文本写为.txt格式并保存到本地路径
String fileName = "获取文本.txt";
File.WriteAllText(fileName, content.ToString());
}
}
}

热心网友时间：2023-10-21 12:05

需要下载PDFBox包。在这个包中，有一个bin目录。为了读取PDF文件，需要下面的文件：
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
您必须在项目中引用前两个动态库，还要把后两个复制到项目的bin目录中。示例代码如下（假定使用控制台程序
usingSystem;
usingorg.pdfbox.pdmodel;
usingorg.pdfbox.util;
namespacePDFReader
{
classProgram
{
staticvoidMain(string[]args)
{
PDDocumentdoc=PDDocument.load("lopreacamasa.pdf");
PDFTextStripperpdfStripper=newPDFTextStripper();
Console.Write(pdfStripper.getText(doc));
}
}
}