PDFlib TET PDF IFilter (产品编号:248)
适用于 Windows 的企业 PDF 搜索
标签:
文档管理
文档处理
文档组建
识别组件
图像处理
字符识别
PDF
下载量: 0
收藏: 0
查看价格
试用下载
温馨提示:本产品的分类与介绍仅供参考,具体以商家网站介绍为准,如有疑问请来电023-62585653咨询。
产品介绍
动态
下载
购买
资源
什么是 PDFlib TET PDF IFilter ?
TET PDF IFilter 从 PDF 文档中提取文本和元数据,并使其可用于 Windows 上的搜索和检索软件。这允许在本地桌面、公司服务器或 Web 上搜索 PDF 文档。TET PDF IFilter 基于获得专利的 PDFlib 文本和图像提取工具包 (TET),这是一种成熟的开发人员产品,用于从 PDF 文档中可靠地提取文本。
TET PDF IFilter 是 Microsoft 的 IFilter 索引接口的强大实现。它适用于所有支持 IFilter 接口的搜索和检索产品,例如 SharePoint 和 SQL Server。此类产品使用特定格式的过滤程序(称为 IFilters)来处理特定的文件格式,例如 HTML。TET PDF IFilter就是这样一个程序,针对PDF文档。用于搜索文档的用户界面可以是 Windows 资源管理器、Web 或数据库前端、查询脚本或自定义应用程序。作为交互式搜索的替代方案,查询也可以在没有任何用户界面的情况下以编程方式提交。
TET PDF IFilter 是 Microsoft 的 IFilter 索引接口的强大实现。它适用于所有支持 IFilter 接口的搜索和检索产品,例如 SharePoint 和 SQL Server。此类产品使用特定格式的过滤程序(称为 IFilters)来处理特定的文件格式,例如 HTML。TET PDF IFilter就是这样一个程序,针对PDF文档。用于搜索文档的用户界面可以是 Windows 资源管理器、Web 或数据库前端、查询脚本或自定义应用程序。作为交互式搜索的替代方案,查询也可以在没有任何用户界面的情况下以编程方式提交。
独特优势
TET PDF IFilter 具有以下优点:
• 支持西方文本、中文、日文和韩文 (CJK) 文本以及从右到左的语言,如阿拉伯语和希伯来语
• 书签、注释(评论)和表单域中的文本
• 索引受保护的文档并从 Acrobat 失败的 PDF 中提取文本
• 文档属性的可配置元数据索引
• 用于改进搜索的自动脚本和语言检测
TET PDF IFilter 具有以下优点:
• 支持西方文本、中文、日文和韩文 (CJK) 文本以及从右到左的语言,如阿拉伯语和希伯来语
• 书签、注释(评论)和表单域中的文本
• 索引受保护的文档并从 Acrobat 失败的 PDF 中提取文本
• 文档属性的可配置元数据索引
• 用于改进搜索的自动脚本和语言检测
基于专利的TET技术
PDFlib TET是 TET PDF IFilter 的基础,于 2002 年首次发布,全球客户在服务器和桌面环境中使用。作为将 PDF 页面内容和元数据提取为原始文本的替代方法,TET 可以提供 XML 格式的文档内容。TET 也可作为 Adobe Acrobat 的免费插件使用。该插件允许对 TET 的卓越文本和图像提取进行交互式测试和评估。
PDFlib TET是 TET PDF IFilter 的基础,于 2002 年首次发布,全球客户在服务器和桌面环境中使用。作为将 PDF 页面内容和元数据提取为原始文本的替代方法,TET 可以提供 XML 格式的文档内容。TET 也可作为 Adobe Acrobat 的免费插件使用。该插件允许对 TET 的卓越文本和图像提取进行交互式测试和评估。
企业 PDF 搜索
TET PDF IFilter 提供线程安全的 32 位和 64 位版本。您可以使用 TET PDF IFilter 和所有支持 IFilter 接口的产品实现企业 PDF 搜索解决方案,包括:
• 微软 SharePoint 服务器
• 微软搜索服务器
• 微软 SQL 服务器
• 微软交换服务器
TET PDF IFilter 提供线程安全的 32 位和 64 位版本。您可以使用 TET PDF IFilter 和所有支持 IFilter 接口的产品实现企业 PDF 搜索解决方案,包括:
• 微软 SharePoint 服务器
• 微软搜索服务器
• 微软 SQL 服务器
• 微软交换服务器
桌面 PDF 搜索
TET PDF IFilter 还可用于通过集成在 Windows 中的 Windows Search 实现桌面 PDF 搜索。
TET PDF IFilter 在桌面操作系统上免费用于非商业用途,为测试和评估提供了方便的基础。
TET PDF IFilter 还可用于通过集成在 Windows 中的 Windows Search 实现桌面 PDF 搜索。
TET PDF IFilter 在桌面操作系统上免费用于非商业用途,为测试和评估提供了方便的基础。
PDFlib TET PDF IFilter 更多功能
接受的 PDF 输入
TET PDF IFilter 支持所有相关风格的 PDF 输入:
• 直到 Acrobat DC 的所有 PDF 版本,包括 ISO 32000-1 和 32000-2 (PDF 2.0)
• 无需密码即可打开文档的受保护 PDF
• 修复损坏的 PDF 文档
TET PDF IFilter 支持所有相关风格的 PDF 输入:
• 直到 Acrobat DC 的所有 PDF 版本,包括 ISO 32000-1 和 32000-2 (PDF 2.0)
• 无需密码即可打开文档的受保护 PDF
• 修复损坏的 PDF 文档
国际化
除了西文文本 TET PDF IFilter 完全支持中文、日文和韩文 (CJK) 文本。识别所有 CJK 编码;支持水平和垂直书写模式。自动检测文本的区域设置 ID(语言和区域标识符)改进了 Microsoft 的分词和词干算法的结果,这对于东亚文本尤其重要。
还支持从右到左的语言,例如希伯来语和阿拉伯语。上下文字符形式被规范化,文本按逻辑顺序传递。
除了西文文本 TET PDF IFilter 完全支持中文、日文和韩文 (CJK) 文本。识别所有 CJK 编码;支持水平和垂直书写模式。自动检测文本的区域设置 ID(语言和区域标识符)改进了 Microsoft 的分词和词干算法的结果,这对于东亚文本尤其重要。
还支持从右到左的语言,例如希伯来语和阿拉伯语。上下文字符形式被规范化,文本按逻辑顺序传递。
PDF 不仅仅是一堆页面
TET PDF IFilter 将 PDF 文档视为容器,其中可能包含比普通页面更多的信息。TET PDF IFilter 索引 PDF 文档中的所有相关项目:
• 页面内容
• 书签、注释(评论)和表单域中的文本
• 元数据(见下文)
• 嵌入式 PDF 和 PDF 包(组合)以递归方式处理,以便可以搜索所有嵌入式 PDF 文档中的文本。
TET PDF IFilter 将 PDF 文档视为容器,其中可能包含比普通页面更多的信息。TET PDF IFilter 索引 PDF 文档中的所有相关项目:
• 页面内容
• 书签、注释(评论)和表单域中的文本
• 元数据(见下文)
• 嵌入式 PDF 和 PDF 包(组合)以递归方式处理,以便可以搜索所有嵌入式 PDF 文档中的文本。
XMP 文档元数据和文档信息
TET PDF IFilter 中的高级元数据实现支持元数据的 Windows 属性系统。它索引 XMP 元数据以及标准或自定义文档信息条目。元数据索引可以在多个级别上配置:
• 文档信息条目、Dublin Core 字段和其他常见 XMP 属性映射到 Windows shell 属性,例如标题、主题、作者。
• TET PDF IFilter 添加了有用的特定于 PDF 的伪属性,例如页面大小、PDF/A 一致性级别、字体名称。
• 可以索引所有相关的预定义 XMP 属性。
• 可以搜索用户定义的 XMP 或基于 PDF 的属性,例如公司特定的分类属性、数字签名或 ZUGFeRD/Factur-X 一致性。
TET PDF IFilter 可选择将元数据集成到全文索引中。因此,即使是不支持元数据的全文搜索引擎(例如 SQL Server)也可以搜索元数据。
TET PDF IFilter 中的高级元数据实现支持元数据的 Windows 属性系统。它索引 XMP 元数据以及标准或自定义文档信息条目。元数据索引可以在多个级别上配置:
• 文档信息条目、Dublin Core 字段和其他常见 XMP 属性映射到 Windows shell 属性,例如标题、主题、作者。
• TET PDF IFilter 添加了有用的特定于 PDF 的伪属性,例如页面大小、PDF/A 一致性级别、字体名称。
• 可以索引所有相关的预定义 XMP 属性。
• 可以搜索用户定义的 XMP 或基于 PDF 的属性,例如公司特定的分类属性、数字签名或 ZUGFeRD/Factur-X 一致性。
TET PDF IFilter 可选择将元数据集成到全文索引中。因此,即使是不支持元数据的全文搜索引擎(例如 SQL Server)也可以搜索元数据。
Unicode 后处理
TET PDF IFilter 支持各种 Unicode 后处理步骤,可用于改进提取的文本:
• 折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。
• 分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。
TET PDF IFilter 支持各种 Unicode 后处理步骤,可用于改进提取的文本:
• 折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。
• 分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。
渝公网安备50010702505508