检测字符是简体字还是繁体字

2024-04-10

我找到了这个question https://stackoverflow.com/questions/2727804/how-to-determine-if-a-character-is-a-chinese-character这使我能够检查字符串是否包含中文字符。我不确定 unicode 范围是否正确,但它们似乎对日语和韩语返回 false,对中文返回 true。

它不会判断该字符是繁体字还是简体字。你会如何发现这一点?


update

问:如何从 Unicode 字符的 32 位值中识别出这是中文、韩文还是日文字符?

http://unicode.org/faq/han_cjk.html http://unicode.org/faq/han_cjk.html

他们的论点是,无论形状如何,字符都具有相同的含义,因此应该由相同的代码表示。好吧,这对我来说并不是毫无意义,因为我正在分析不适合他们的解决方案的单个字符:

更好的解决方案是从整体上查看文本:如果有大量假名,则可能是日语,如果有大量韩文,则可能是韩语。


如前所述,您无法可靠地从单个字符检测脚本样式,但对于足够长的文本样本是可能的。看https://github.com/jpatokal/script_ detector https://github.com/jpatokal/script_detector对于能够完成这项工作的 Ruby gem,以及简体中文Unicode表 https://stackoverflow.com/questions/4596576/simplified-chinese-unicode-table/10810865#10810865进行一般性讨论。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

检测字符是简体字还是繁体字 的相关文章

随机推荐