C#如何读取pdf文本
发布网友
发布时间:2022-04-25 14:39
我来回答
共2个回答
热心网友
时间:2023-10-21 12:05
NuGet包管理器 ->程序包管理器控制台 ->输入Install-Package Spire.PDF然后按回车安装dll
然后使用下面代码读取PDF文本
using System;
using System.IO;
using System.Text;
using Spire.Pdf;
namespace ExtractText_PDF
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类对象,并加载PDF文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("sample.pdf");
//实例化一个StringBuilder 对象
StringBuilder content = new StringBuilder();
//遍历文档所有PDF页面,提取文本
foreach (PdfPageBase page in doc.Pages)
{
content.Append(page.ExtractText());
}
//将提取到的文本写为.txt格式并保存到本地路径
String fileName = "获取文本.txt";
File.WriteAllText(fileName, content.ToString());
}
}
}
热心网友
时间:2023-10-21 12:05
需要下载PDFBox包。在这个包中,有一个bin目录。为了读取PDF文件,需要下面的文件:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
您必须在项目中引用前两个动态库,还要把后两个复制到项目的bin目录中。示例代码如下(假定使用控制台程序
usingSystem;
usingorg.pdfbox.pdmodel;
usingorg.pdfbox.util;
namespacePDFReader
{
classProgram
{
staticvoidMain(string[]args)
{
PDDocumentdoc=PDDocument.load("lopreacamasa.pdf");
PDFTextStripperpdfStripper=newPDFTextStripper();
Console.Write(pdfStripper.getText(doc));
}
}
}