我正在使用 SQL Server 2008 全文搜索引擎开发一个知识库项目。
项目包含在文章和文件中,其中每篇文章都有多个文件。在这些文章中,全部内容是纯html.
现在,我在 SQL Server 2008 上成功创建了全文目录和索引,并且我的数据库与版本 10 兼容。
这是我的问题:
1)在这些文章中搜索时,是否可以忽略html标签,更清楚地包含“<...>”中的文本,因为如果我想搜索div,table等,应该不会返回结果?
2)文章会随时更新,因此插入新记录时必须更新全文索引。创建全文目录时仅设置“TRACK CHANGES AUTOMATIC”是否足够?
3)以后我们可能会使用FILESTREAM功能,SQL Server 2008对使用全文索引的文件有很好的性能吗?
SQL Server 2008 适合哪些特定文档类型的索引?
Regards
有一个针对 .htm 和 .html 文件的过滤器。
要查看是否安装了过滤器,请运行以下 sql:
SELECT * FROM sys.fulltext_document_types
你应该看到:
.htm E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation
.html E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation
因此,如果您可以将您的文章列转换为 varbinary(max),那么您可以在其上添加全文索引并指定文档类型“.html”
填充索引后,您可以使用以下 sql 验证关键字:
SELECT display_term, column_id, document_count
FROM sys.dm_fts_index_keywords
(DB_ID('your_db'), OBJECT_ID('your_table'))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)