如何标准化 Wordnet 中的相似性度量

2024-01-16

我正在尝试计算两个单词之间的语义相似度。我正在使用基于 Wordnet 的相似性度量,即 Resnik 度量(RES)、Lin 度量(LIN)、Jiang 和 Conrath 度量(JNC)以及 Banerjee 和 Pederson 度量(BNP)。

为此,我使用 nltk 和 Wordnet 3.0。接下来,我想结合从不同度量获得的相似度值。为此,我需要对相似度值进行归一化,因为某些度量给出的值介于 0 和 1 之间,而其他度量给出的值大于 1。

所以,我的问题是如何标准化从不同度量获得的相似性值。

额外细节关于我实际上想做的事情:我有一套话。我计算单词之间的成对相似度。并删除与集合中其他词相关性不强的词。


如何标准化单个度量

让我们考虑一个任意的相似性度量M并取任意单词w.

Define m = M(w,w)。那么m取最大可能值M.

让我们定义一下MN作为标准化指标M.

对于任意两个单词w, u你可以计算MN(w, u) = M(w, u) / m.

很容易看出如果M取非负值,那么MN取值于[0, 1].

如何标准化由多个度量组合而成的度量

为了计算您自己定义的度量Fk个不同措施的组合m_1, m_2, ..., m_k首先独立标准化每个m_i使用上面的方法然后定义:

alpha_1, alpha_2, ..., alpha_k

这样alpha_i表示第 i 个度量的权重。

所有 alpha 之和必须为 1,即:

alpha_1 + alpha_2 + ... + alpha_k = 1

然后计算你自己的衡量标准w, u you do:

F(w, u) = alpha_1 * m_1(w, u) + alpha_2 * m_2(w, u) + ... + alpha_k * m_k(w, u)

很明显F取 [0,1] 范围内的值

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何标准化 Wordnet 中的相似性度量 的相关文章

随机推荐