如何对一堆文本进行数据挖掘以按使用情况获取关键字? (“雅各布·史密斯”或“栅栏”)
已经有软件可以做到这一点了吗?即使是半自动的,如果它可以过滤掉“the”、“and”、“or”等简单单词,那么我就可以更快地进入主题。
这是 NLP 中的一个开放性问题,因此没有简单的答案。
我对快速而肮脏的“为我工作”的建议是特皮亚术语提取物 http://pypi.python.org/pypi/topia.termextract/.
雅虎有一个关键字提取服务(http://developer.yahoo.com/search/content/V1/termExtraction.html http://developer.yahoo.com/search/content/V1/termExtraction.html)召回率低但准确率高。换句话说,它为您提供了少量高质量术语,但遗漏了文档中的许多术语。
在Python中,有topia.termextract(http://pypi.python.org/pypi/topia.termextract/ http://pypi.python.org/pypi/topia.termextract/)。它相对嘈杂,并且提出了许多虚假关键字,但使用起来很简单。
特尔米内 (http://www.nactem.ac.uk/software/termine/ http://www.nactem.ac.uk/software/termine/)是英国的一个网络服务,也相对嘈杂,并且提出了许多虚假关键字。然而,在我看来,它比topia.termextract 稍微准确一些。 YMMV。
对包含过多关键字(例如 topia.termextract 和 termine)的结果进行去噪的一种方法是创建经常出现的术语词汇表,然后丢弃不在词汇表中的建议术语。换句话说,对语料库进行两次遍历:第一次遍历,计算每个关键字的频率。在第二遍中,丢弃太罕见的关键字。
如果您想自己编写,也许最好的介绍是由现在 IBM 的 Park 编写的:
- “自动词汇表提取:超越术语识别”可在http://portal.acm.org/itation.cfm?id=1072370 http://portal.acm.org/citation.cfm?id=1072370
- “IBM 技术支持信息搜索和交付系统中的术语提取和利用”
如果您想了解更多信息,这里有更多参考:
- http://en.wikipedia.org/wiki/Terminology_extraction http://en.wikipedia.org/wiki/Terminology_extraction
- “CorePhrase:文档聚类的关键短语提取”
- Liu 等人 2009 年,来自 NAACL HLT
- “非组合短语的自动识别”
- “数据挖掘与搭配发现”
- 您还可以挖掘有关该主题的许多其他参考资料。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)