如何在 C# 中从 pdf 或 word 文件中提取文本(删除粗体、图像和其他富文本格式媒体)?
您可以使用专为索引服务设计/由索引服务使用的过滤器。它们旨在从各种文档中提取纯文本,这对于在文档内部进行搜索非常有用。您可以将其用于 Office 文件、PDF、HTML 等,基本上任何具有过滤器的文件类型。唯一的缺点是您必须在服务器上安装这些过滤器,因此如果您无法直接访问服务器,这可能是不可能的。有些过滤器随 Windows 预装,但有些过滤器(如 PDF)则必须自行安装。对于 C# 实现,请查看这篇文章:在 C# 中使用 IFilter http://www.codeproject.com/KB/cs/IFilter.aspx
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)