我正在使用 nutch 爬行我们的大型网站,然后使用 solr 进行索引,结果非常好。然而,网站上有几个菜单结构会索引并破坏查询结果。
每个菜单都在 DIV 中明确定义,因此<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
和其他几个。
我需要在某个时候删除这些 DIVS 中的内容。
我猜测正确的位置是在 solr 索引期间,但无法弄清楚如何进行。
模式看起来像(<div id="calendar">).*?(<\/div>)
但我无法让它发挥作用<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />
我不太确定将它放在 schema.xml 中的哪里。
当我将该模式放入 schema.xml 时,不会解析。
这是一个补丁 https://issues.apache.org/jira/browse/SOLR-2597对于 SOLR,您可以将其放置在索引配置中以忽略您配置的标签的内容。不过,它只适用于 XML,所以如果您可以整理 HTML 或者您知道它是 XHTML,那么这可以工作,但它不适用于任何随机 HTML。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)