我有我公司所有员工的姓名(超过 5000 名)。我想编写一个引擎,它可以在在线文章(博客/维基/帮助文档)中即时查找名称,并用用户电子邮件的“mailto”标签标记它们。
截至目前,我计划从文章中删除所有停用词,然后在 lucene 索引中搜索每个单词。但即使在这种情况下,我也会看到很多查询命中索引,例如,如果一篇文章有 2000 个单词,并且只有两次引用人名,那么很可能会有 1000 个 lucene 查询。
有没有办法减少这些查询?或者完全不同的方式来实现同样的目的?
提前致谢
如果你只有 5000 个名称,我会将它们放入内存中的哈希表中,而不用费心使用 Lucene。您可以通过多种方式对它们进行散列(例如,昵称、第一个最后一个或最后一个第一个等),并且仍然具有相对较小的内存占用和真正高效的性能。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)