有什么方法可以识别一个单词可能是/不可能是一个人的名字吗?
因此,如果我看到“understanding”这个词,我会得到 0.01 的概率,而“Johnson”这个词会返回 0.99 的概率,而像 Smith 这样的词会返回 0.75,而像 Apple 这样的词会返回 0.15。
有什么办法可以做到这一点吗?
目标是,如果有人搜索,比如说Charles Darwin galapagos
,搜索引擎猜测它应该搜索作者字段Charles
and Darwin
以及标题和摘要字段galapagos
.
我的快速技巧是这样的:
从人口普查局获取按受欢迎程度排列的姓名列表,该列表是免费提供的。为每个名称指定一个标准化的受欢迎程度得分(1.0 = 最受欢迎,0.0 = 最不受欢迎)。
然后,获取一本开源词典,并进行一些研究以汇总每个单词的频率得分。你可以找到一个在这里,在维基词典 http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists#English。为每个单词分配一个流行度分数,1.0 到 0.0。方便的是,如果您在频率列表中找不到某个单词,您就可以假设它是一个非常不常见的单词。
在两个列表中查找一个单词。如果仅在其中之一上,那么您就完成了。如果两者都存在,则使用公式计算加权概率...类似于(名称受欢迎度)/(名称受欢迎度 + 其他受欢迎度)。如果它不在任何一个列表中,那么它可能是一个名字。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)