我有一个包含几个单词的字符串。我想找出所有只包含泰米尔语 Unicode 字符的单词。我是 JavaScript 新手。
使用 Go,我做同样的事情:
tokens := strings.Fields(stringContent, delim) // split based on delim, say space
for _, token := range tokens { //like foreach
r, l := utf8.DecodeRuneInString(token)
if l != 1 {
if unicode.Is(unicode.Tamil, r) {
// Tamil word
}
}
}
我发现 string.split() 会根据 JavaScript 中的分隔符给出各个单词。但我不知道如何获取该单词是否是 UTF-8 泰米尔语单词。有人可以帮我用 javascript 实现这个目标吗?
简单的方法是对具有 unicode 范围内字符的单词进行正则表达式匹配
希望这可以帮助 :http://kourge.net/projects/regexp-unicode-block http://kourge.net/projects/regexp-unicode-block
您可以开始使用的示例
"இந்தியா ASASAS எறத்தாழ ASSASAS குடியரசு ASWED SAASAS".match(/[\u0B80-\u0BFF]+/g);
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)