我正在开展一个涉及清理大学专业数据列表的项目。我发现很多拼写错误,所以我想使用这个函数gsub()
将拼写错误的拼写替换为正确的拼写。例如,假设“biolgy”在名为 Major 的专业列表中拼写错误。如何让 R 检测拼写错误并将其替换为正确的拼写?我试过了gsub('biol', 'Biology', Major)
但这仅替换了“biolgy”中的前四个字母。如果我做gsub('biolgy', 'Biology', Major)
,它仅适用于这种情况,但不能检测其他形式的“biology”拼写错误。
谢谢你!
您应该定义一些漂亮的正则表达式,或者使用agrep
from base
包裹。stringr
package 是另一种选择,我知道人们使用它,但我是正则表达式的忠实粉丝,所以这对我来说是禁忌。
Anyway, agrep
应该做的伎俩:
agrep("biol", "biology")
[1] 1
agrep("biolgy", "biology")
[1] 1
EDIT:
您还应该使用ignore.case = TRUE
,但要准备好“手工”做一些簿记......
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)