-
C# 读取PDF中的表格(c# 读取pdf文字位置)
- 网站名称:C# 读取PDF中的表格(c# 读取pdf文字位置)
- 网站分类:技术文章
- 收录时间:2025-07-18 14:24
- 网站地址:
“C# 读取PDF中的表格(c# 读取pdf文字位置)” 网站介绍
本文介绍在C#程序中(附VB.NET代码)提取PDF中的表格的方法,调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容;代码内容中涉及到的主要类型及方法归纳如下表,供参考:
类型 | 描述 |
PdfDocument Class | Represents a pdf document model. |
PdfDocument.LoadFromFile(string filename) Method | Loads a PDF document. |
PdfTableExtractor Class | Represents the PDF table extractor. |
PdfTable Class | Defines a PDF table. |
PdfTableExtractor. ExtractTable(int pageIndex) Method | Extracts table from page. |
PdfTable.GetText(int rowIndex,int columnIndex) Method | Gets Text in cell. |
File.WriteAllText() Method | Saves extracted text in table to a .txt file. |
环境配置
- Visual Studio 2017
- .net framework 4.6.1
- PDF测试文档
- 库:Spire.PDF for .NET 7.10.4
引用dll文件的2种方法:
方法1:通过NuGet安装。
【步骤】
鼠标右键点击“引用”,“管理NuGet程序包”,
点击“浏览”,在搜索框中输入,点击“安装”,
或者使用PM控制台安装:
PM>Install-Package Spire.PDF -Version 7.10.4
方法2:手动添加引用。
【步骤】
鼠标右键点击“引用”,“添加引用”,
点击“浏览”,“浏览”,将本地路径下的dll文件(需提前下载到本地,并解压)添加到引用列表
点击OK,完成引用:
代码示例
C#
using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;
namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//加载PDF文档
PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile("sample.pdf");
StringBuilder builder = new StringBuilder();
//抽取表格
PdfTableExtractor extractor = new PdfTableExtractor(pdf);
PdfTable[] tableLists = null;
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
tableLists = extractor.ExtractTable(pageIndex);
if (tableLists != null && tableLists.Length > 0)
{
foreach (PdfTable table in tableLists)
{
int row = table.GetRowCount();
int column = table.GetColumnCount();
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
string text = table.GetText(i, j);
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格内容到txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}
}
VB.NET
Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text
Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'加载PDF文档
Dim pdf As New PdfDocument()
pdf.LoadFromFile("sample.pdf")
Dim builder As New StringBuilder()
'抽取表格
Dim extractor As New PdfTableExtractor(pdf)
Dim tableLists As PdfTable() = Nothing
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
tableLists = extractor.ExtractTable(pageIndex)
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
For Each table As PdfTable In tableLists
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()
For i As Integer = 0 To row - 1
For j As Integer = 0 To column - 1
Dim text As String = table.GetText(i, j)
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next
'保存提取的表格内容到txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace
表格内容提取结果:
其他注意事项:
- 代码中的PDF文件以及生成的.txt文件路径为 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。
- 注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。
更多相关网站
- 神操作!SpringBoot 如何实现 PDF 添加水印?
- 如何对PDF的文字进行加粗?小妙招get
- C# 将XML转为PDF(xml转换为pdf)
- Spire.XLS for .NET新版来袭,新增了设置图表背景色的功能!
- Office Viewer:一款在线文档查看工具,打开浏览器就能使用
- 想在Java中把Excel转化为PDF等常用格式吗?Spire.XLS帮你搞定
- C# WPF 5种方式实现PDF打印(c#操作pdf文件)
- Spire.Doc.11.3.1 增强了 Word 到 PDF 的转换
- Spire.XLS for Java 13.5.6增强了 Excel 到 PDF的转换
- Java更改 PDF 页面大小(java生成pdf怎么单元格宽度)
- C#用Spire.Pdf将pdf转成word文件(c#pdf转excel)
- Java 将PDF 转为Word(java pdf怎么转换成jpg图片)
- Spire.Doc 10.10.4 增强了 Word 到 PDF 和 RTF 的转换
- Java 提取PDF文档中的表格信息(java导出pdf表格)
- Spire.PDF for Java 9.7.8 新增了转换 PDF 到 Word 的新接口
- 在Spire.PDF 3.5.143版本中XPS到PDF的转换速度得到提升!
- Word处理控件Spire.Office for .NET v7.3.2 全新发布
- Spire.PDF for Java v2.9.1上线!支持多页PDF转换为单个SVG
- 最近发表
- 标签列表
-
- mydisktest_v298 (35)
- sql 日期比较 (33)
- document.appendchild (35)
- 头像打包下载 (35)
- 二调符号库 (23)
- acmecadconverter_8.52绿色版 (25)
- 梦幻诛仙表情包 (36)
- 魔兽模型 (23)
- java面试宝典2019pdf (26)
- disk++ (30)
- vncviewer破解版 (20)
- pk10牛牛 (20)
- 加密与解密第四版pdf (29)
- iteye (26)
- parsevideo (22)
- ckeditor4中文文档 (20)
- centos7.4下载 (32)
- cuda10.1下载 (22)
- intouch2014r2sp1永久授权 (33)
- usb2.0-serial驱动下载 (24)
- 魔兽争霸全图 (21)
- jdk1.8.0_191下载 (27)
- axure9注册码 (30)
- gitlab日志 (20)
- spire.pdf 破解版 (21)