个人中心

联系我们

搜索
搜索 登录 免费注册
界面美化
业务优化
开发工具
图像管理
文档管理
Parasoft

新闻资讯

关注工具软件产品最新动态,了解软件开发行业新趋势。

Aspose 使用教程:用 C# 从网页中提取文本 - 文本提取 API

原创
软件开发
来源:Aspose
Aspose
C#
API
.net
HTML5
2024-05-10
Aspose
C#
API
.net
HTML5

本文展示了 Aspose.HTML for .NET 提供的另一项突出功能。通过这个功能丰富的 .NET 库,您可以用 C# 编程从网页中提取文本。此外,该文本提取 API 公开了多个用于从 HTML 页面提取文本的类和方法。因此,您可以轻松地为您的软件开发一个网站文本提取器,这将为您的业务带来竞争优势。因此,请仔细阅读本文,不要遗漏任何部分。此外,请确保您已在本地计算机上安装了 .NET,以便实现这些功能。


本文将讨论以下几点:


  • 文本提取 API 安装

  • 用 C# 从网页中提取文本 - 代码示例

  • 在线文本提取器


文本提取 API 安装

Aspose.HTML for .NET 提供了从网页中提取文本的无缝解决方案。作为一名 C# 程序员,您可以选择该文本提取 API 来开发网页文本提取器,以提高工作效率。此外,在多种情况下您都需要网站文本提取 API,因此 Aspose.HTML for .NET 可能是您的首选。不过,您可以通过下载 DLL 文件或在 NuGet 包管理器中运行以下命令来安装它:

PM> Install-Package Aspose.Html



用 C# 从网页中提取文本 - 代码示例

使用 Aspose.HTML for .NET 库既不复杂也不困难。因此,这个文本提取 API 是由我们一流的工程师精心设计的。因此,让我们开始编写代码片段。


您可以按照下面提到的步骤进行:


  1. 定义目录地址。

  2. 初始化 HTMLDocument 类的构造函数,以加载网页。

  3. 通过调用 GetElementsByTagName 方法收集所有 h2 标题。

  4. 循环浏览所有检索到的 h2 标题。

  5. 使用 GetElementsByTagName 方法获取粗体文本。

  6. 循环浏览从网页中获取的所有粗体文本。

  7. 调用 WriteAllText 方法将文本保存到 Txt 文件中。

以下代码片段展示了如何用 C# 编程从网页中提取文本:

namespace Aspose.Html
{
    class HTML
    {
        // Extract Text from Webpage in C# - Text Extraction API
        static void Main(string[] args)
        {
            // Define the directory address
            String dir = "/sample-files/";
            // Initialize a constructor of HTMLDocument class to load a webpage.  
            using (var document = new HTMLDocument("https://blog.aspose.com/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {
                // Collect all h2 headings by calling the GetElementsByTagName method. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // loop through all the retrieved h2 headings.
                for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Get the bold text using the GetElementsByTagName method.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Loop through all the bold text retrieved from a webpage.
                for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Call the WriteAllText method to save the text in a txt file.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }
        }
    }
}


上述代码示例的输出结果如下图所示:



在线文本提取器

这款在线网页文本提取器是一款可以让你以非编程方式执行数据提取任务的工具。它是一款基于网络的应用程序,在手机的网络浏览器中也能很好地运行。最重要的是,它是免费的,而且能非常快速地从 HTML 网页中提取文本。未来,这款在线文本提取工具还将配备更多功能。



网站文本提取器 - 获取免费许可证

您可以免费获得临时许可证,试用这款文本提取 API,不受评估限制。


结论

本文到此结束。我们希望你已经学会了如何用 C# 从网页中以编程方式提取文本。此外,您还看到了从 HTML 页面提取文本的实际实现。事实上,当涉及到快速应用程序开发时,程序员总是倾向于使用可靠而强大的应用程序接口,幸运的是,Aspose.HTML for .NET 几乎可以满足您的需求。因此,您可以通过访问文档和 API 参考资料来进一步了解该文本提取 API。


常见问题 - FAQ

如何用 C# 从网页中读取数据?

您可以使用 Aspose.HTML for .NET 以编程方式从网页中读取数据。

如何用 C# 从 URL 中提取数据?

初始化 HTMLDocument 类的构造函数以加载网页,并通过在 GetElementsByTagName 方法中传递任意标记名来获取数据。此外,您还可以利用在线工具在线提取数据。


联系我们

周一至周日 8:00-23:00

免费热线

023-62585653

张经理:13082556879

罗经理:17558866126

许经理:13057566525

开发外包

ERP-一体化

小程序

企业微信客服

版权所有:重庆庚乾信息科技有限公司 ©2025 Gengqian Information Technology Co., Ltd. 渝ICP备2022008063号-2 渝公网安备50010702505508

版权所有:重庆庚乾信息科技有限公司

©2025 Gengqian Information Technology Co., Ltd. 渝ICP备2022008063号-2 渝公网安备50010702505508