下载量: 0
收藏: 0
产品介绍
动态
下载
购买
资源
使用 PDFlib TET,您可以:
• 为搜索引擎实现 PDF 索引器
• 重新利用 PDF 中的文本和图像
• 将 PDF 的内容转换为其他格式
• 根据内容处理 PDF,例如根据标题拆分(除 TET 外还需要 PDFlib+PDI)
• 检查页面上的特定位置是否为空,例如放置条形码或印章
• TET 还包括pCOS界面,用于查询有关 PDF 文档的详细信息,例如文档信息字段和 XMP 元数据、字体列表、页面大小等
PDFlib TET 专为独立使用而设计,不需要任何第三方软件。它是健壮的,适合多线程服务器使用;看看如何使用 TET。
PDFlib TET 提供以下强大的功能,并为文本提取提供独特的优势以及图像提取的独特优势。
TET 支持所有类型的 PDF 输入:
• 最高至 Acrobat DC 的所有 PDF 版本,包括 ISO 32000-1 和 -2 (PDF 2.0)
• 无需密码即可打开或提供密码的受保护 PDF
• 修复损坏的 PDF 文档
TET 处理全球所有书写系统中的 PDF 文档,并实现某些脚本所需的特殊处理:
• 拉丁文、希腊文和西里尔文脚本
• 阿拉伯语和希伯来语,包括从右到左和双向文本的逻辑重新排序;阿拉伯语演示表格的规范化
• 简繁体中文、日文、韩文,不分编码;水平和垂直文本
• 印度语脚本(没有字形重新排序)
• Unicode 输出支持的所有其他语言和脚本
由于 PDF 中的文本通常不以 Unicode 编码,因此 PDFlib TET 将 PDF 文档中的文本标准化为 Unicode:
• TET 将所有文本内容转换为 Unicode,而不管 PDF 文档中使用的编码方法。
• 连字和其他多字符字形被分解为相应的 Unicode 字符序列。
• 没有适当的 Unicode 映射的字形被识别为这样,并被映射到可配置的替换字符以避免误解。
• TET 针对特定文档创建包(例如 InDesign 和 TeX 文档或在大型机系统上生成的 PDF)的问题实施了各种解决方法。
TET 包括获得专利的内容分析算法:
• 确定检索正确单词所需的单词边界
• 组合连字符的部分(去连字符)
• 删除重复的文本实例,例如阴影和人工加粗的文本
• 按阅读顺序重新组合段落
• 正确排序分散在页面上的文本
分析页面内容以确定文本列。检测到表格,包括跨越多行或多列的单元格。这提高了提取文本的顺序。可以识别表格行和每个表格单元格的内容。项目符号和编号列表被识别。
TET 为文本提供精确的度量,例如页面上的位置、字形宽度和文本方向。页面上的特定区域可以被排除或包含在文本提取中,例如忽略页眉和页脚或页边距。
TET 分析 PDF 页面描述中的颜色信息并返回每个字形的精确颜色信息。例如,这可用于识别标题或其他突出显示的文本。可以选择在更简单的备用颜色空间中提取高级颜色空间 Separation 和 DeviceN。
PDF 页面上的图像可以提取为 TIFF、JPEG、JBIG2 或 JPEG 2000 文件。为每个图像报告精确的几何信息(位置、大小和角度)。将碎片图像组合成更大的图像以方便重新调整用途。图像保真度得到保证,因为不会发生下采样或颜色转换。这确保了尽可能高的图像质量。
在标记的 PDF,尤其是 PDF/UA 中,不相关的内容可能被标记为工件,例如页眉和页脚。TET 可选择忽略工件文本和图像。
TET 库包括用于查询 PDF 文档详细信息的pCOS 界面,例如文档信息和 XMP 元数据、字体列表、页面大小等等。
TET 支持各种 Unicode 后处理步骤,可用于改进提取的文本:
• 折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。
• 分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。
• 文本可以转换为所有 Unicode 规范化形式,例如发出 NFC 形式以满足 Web 文本或数据库的要求。
PDF 文档可能在页面内容之外的其他位置包含文本。虽然大多数应用程序只处理页面内容,但在许多情况下,其他文档域也可能是相关的。TET 从以下所有文档域中提取文本:
• 页面内容
• 预定义和自定义文档信息条目
• 文档和图像级别的 XMP 元数据
• 书签
• 递归处理文件附件和 PDF 组合
• 表单域
• 评论(注解)
• 可以查询一般的 PDF 属性,例如页数、是否符合 PDF/A 或 PDF/X 等标准。
TET 以多种方式支持 XMP 元数据:
• 使用集成的 pCOS 接口,可以通过编程方式提取文档、单个页面、图像或文档其他部分的 XMP 元数据。
• TETML 输出包含 XMP 文档和图像元数据。
• 以 TIFF 或 JPEG 格式提取的图像包含图像元数据(如果存在于 PDF 中)。

断字
TET 检测跨多行的连字符,删除连字符,然后将各个部分组合成一个完整的单词。尽管文档中存在连字符部分,但这对于确保成功搜索完整单词非常重要。破折号(不同于连字符)被分开处理,因为它们不能被删除。

阴影和人工粗体文本检测
数字文档通常包含阴影文本,其中阴影效果是通过在页面上放置相同的文本来实现的,使用文本实例之间的小偏移量。类似地,粗体文本通常通过叠印相同的文本来模拟。因此,文档不止一次包含阴影或粗体字中的字符。TET 的专利阴影检测算法可识别并删除多余的文本实例,以避免过多的文本提取。虽然其他软件会多次提取阴影或粗体文本,但 TET 会正确删除冗余副本。虽然单词的额外实例仍会导致搜索引擎命中,但如果文本像示例中那样逐字符重复,则不会找到更多命中。

重音字符
在许多语言中,重音符号和其他变音符号靠近其他字符放置以形成组合字符。一些排版程序,例如特别是 TeX,发出两个单独的字符(基本字符和重音)来创建一个组合字符。例如,要创建字符 ä,首先将字母 a 放在页面上,然后将分词字符 ¨ 放在它的顶部。TET 检测到这种情况并将两个字符组合成适当的复合字符。

连字
连字将两个或多个字符组合在一个字形中。最常见的连字是fi、fl和ffi 的组合;不太常见的连字用于Th、sp、ct、st和许多其他。从数字文档中提取文本时,必须分析连字并将其分离为组成字符,以便进行适当的文本处理。TET 检测连字并根据需要提供两个或更多字符。如果需要,TET 可以选择保留连字。

首字下沉
首字下沉是段落开头的大首字母,首字母的顶部与行首对齐,其余的字符下降几行。首字下沉用于强调段落的开头。如果它们没有被正确处理,则初始单词将被提取为两部分:单个初始字符和单词的其余部分。

Unicode 映射
Unicode 映射构成了 PDF 文本提取的基础:页面上的每个字形都必须分配相应的 Unicode 值。PDF 通过支持各种字体和编码变体使这项任务复杂化,这些变体可能会或可能不会提供分配正确 Unicode 值所需的信息。在最坏的情况下,文档没有提供足够的信息,导致无法从文档中提取可用的文本。
TET 获得专利的 Unicode 映射算法实现了一种级联算法,该算法采用所有可用的信息片段来确定 Unicode 值。对于许多有问题的文档,TET 提取正确的 Unicode 文本,而其他产品仅提供不可用的垃圾。
阿拉伯语和希伯来语双向文本
PDF 不编码逻辑文本,而只是页面上字形的容器。阿拉伯语和希伯来语脚本中的文本从右到左运行。由于它通常包含从左到右的插入,例如西方语言中的数字或名称,因此必须在两个方向上解释文本 - 因此术语“双向”。阿拉伯语带来了额外的挑战,因为这些字符最多以四种不同的上下文形式使用。这些形状的字符形式必须标准化为相应的标准(孤立)形式。

损坏的 PDF 文件
PDF 文档可能会因为传输错误或其他问题而损坏。TET 的修复模式可以恢复多种损坏的 PDF。有时 PDF 文档损坏严重,以至于页面甚至无法在 Acrobat 中显示。即使在这种极端情况下,TET 也经常提供文档的页面内容。

颜色空间和压缩
PDF 中的光栅图像数据可以使用 11 个颜色空间和 9 个压缩过滤器的组合进行编码,但常见的图像文件格式(如 JPEG 和 TIFF)仅支持这些组合的子集。TET 的图像引擎平衡了 PDF 图像的特性和图像输出格式的能力。无论PDF图像的内部结构如何,像素图像都是以一种常见的图像文件格式提取的。

专色
除了 CMYK 印刷色之外,PDF 中的图像还可以使用自定义专色。从技术上讲,这些色彩空间被称为分离(单通道)和 DeviceN(多通道)。
TET 创建带有附加专色通道的 TIFF 输出。这适用于需要出色色彩保真度且不能接受任何色彩转换的应用。如果具有 DeviceN 颜色的图像仅包含常见 CMYK 印刷色的子集(例如,仅青色和洋红色),则会添加缺少的印刷通道,以便可以创建纯 CMYK 输出。
但是,并非所有应用程序都能够处理专色通道;有些仅限于纯 TIFF 输出。在这种情况下,可以指示 TET 将专色通道作为灰度 TIFF 发出以促进处理。
合并碎片图像
许多 PDF 文档中的图像被生成 PDF 的软件分成小片段。页面上看似单一的图像实际上可能由许多小块组成。例如,Microsoft Office 应用程序通常会生成由成百上千个小片段组成的高度碎片化的图像。Adobe InDesign 经常在称为“透明度拼合”的过程中将图像分割成不同大小的片段。如果组合结果形成矩形像素网格,TET 会检测碎片图像并合并碎片以形成可用的更大图像。只有通过图像合并,碎片图像才能合理地重新利用。

使用 TET 的多种方式
TET 可用作各种开发环境的编程库,也可用作批处理操作的命令行工具。两者都提供类似的功能,但适用于不同的部署场景。TET 库和命令行工具都可以创建 TETML,TET 的基于 XML 的输出格式。

TET 编程库用于...
...用于集成到桌面或服务器应用程序中。TET 包中包含将库与所有受支持的语言绑定一起使用的示例。

TET 命令行工具适合...
...用于批处理 PDF 文档。它不需要任何编程,但提供了命令行选项,可用于将其集成到复杂的工作流程中。

TETFL 输出适合...
...适用于熟悉各种 XML 处理工具和语言(例如 XSLT)的基于 XML 的工作流和开发人员。

TET 连接器适用于...
...用于将 TET 集成到各种常用软件包中,例如数据库和搜索引擎。

支持的开发环境
PDFlib TET 无处不在 - 它几乎可以在所有计算平台上运行。我们为所有常见的 Windows、macOS、Linux 和 Unix 以及 IBM System i 和 IBM Z 提供 32 位和 64 位软件包。TET 也可用于包括 iOS 和 Android 在内的移动系统。
TET 内核是用高度优化的 C 和 C++ 代码编写的,以实现最高性能和最小开销。通过一个简单的 API(应用程序编程接口),可以从各种开发环境访问 TET 功能:
• C 和 C++
• Java
• .NET 和 .NET Core
• Objective-C (macOS and iOS)
• Perl
• PHP
• Python
• RPG (IBM i)
• Ruby
渝公网安备50010702505508