我读到词干提取会损害准确性,但会提高文本分类的召回率。这是怎么发生的?当您进行词干提取时,您会增加查询和示例文档之间的匹配数量,对吗?
总是一样的,如果你提高回忆,你就进行了概括。因此,你会失去精确度。将单词词干合并在一起。
一方面,应该合并在一起的单词(例如“adhere”和“adhesion”)在词干提取后可能仍然不同;另一方面,真正不同的词可能会被错误地混为一谈(例如“实验”和“经验”)。这些分别称为词干不足错误和词干过度错误。
词干过度会降低精确度,词干不足会降低召回率。因此,由于根本没有词干提取意味着没有过度但最大的词干不足错误,因此您的召回率较低,但精度较高。
顺便说一句,精度意味着您找到的“文档”中有多少是您要查找的文档。召回率是指您收到的所有“文件”中有多少是正确的。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)