某些象形文字语言中的字计数器?

2023-12-02

是否有任何可用的库用于某些象形文字语言的字数统计(例如:中文、日文、韩文...)?

我发现 MS Word 可以有效地计算这些语言的文本。我可以在 .NET 应用程序中添加对 MS Word 库的引用来实现此功能吗?

或者还有其他解决方案可以达到这个目的吗?


是否有任何可用的库用于某些象形文字语言的字数统计(例如:中文、日文、韩文...)?

象形文字?不,他们不是。他们是语意的字符并没有那么微妙的区别。我确信某些母语人士可能比我更好地解释这一点。

日语和中文文本由人物与西方语言完全相同,但只有一个字符may是一句话。而且他们不需要空格来分隔单词所以我们的区分字符/单词不能使用空格作为分隔符。

Word 的作用是计算单词数(假设它们等于字符),您可以在代码中执行相同的操作(只是不要忘记它是 UNICODE,因此您无法计算字节)计算字符数。来数数real你需要一本字典(因为你不能依赖空格)。

例如这些字符串:

这是一个示例文本

これは、サンプルのテキsutoです

中文将按 8 个字符 8 个单词计算,日语将按 15 个字符 15 个单词计算。实际上不是(例如在日语中,用罗马字音译时是 5 个单词)。此外,不要忘记日语有不止一种字母表(其中一个家族是表音字母)。

重点是什么?你会数什么?音译为我们用来表示它们的语音表示形式之一(带有拉丁字符)的单词?哪一个?字数统计将会有很大不同,它实际上会计算我们的concept单词数(我想这就是为什么单词计数字符)。

也就是说,现在尝试编写以下代码:

string text = "这是一个示例文本";
MessageBox.Show(text.Length.ToString());

它将显示 8,就像 Word 那样(我们正在计算字符),以字节为单位(假设 UTF-8 编码)为 24。这里计算空格没有意义。如果您打算计算一个音译中的单词数,则需要使用外部库(自己完成这不是一件容易的任务),为您想要支持的每种语言使用不同的库(不知何故,自动检测语言很容易,因为在日语他们经常使用平假名/片假名字符)。哪一个?有很多,我不知道中文,但在日语中,音译汉字的一个流行的是Kakasi.

韩语是一个完全不同的故事,它是一种与拉丁字母完全相同的字母表,但字符(应该称为音节)可能由许多字母组成。同样,它们不需要空格,因此您不能依赖它们进行字数统计。它在某种程度上更复杂,因为在这里你甚至可能需要一本字典来计算字符(否则你只会计算音节)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

某些象形文字语言中的字计数器? 的相关文章

随机推荐

  • 选择满足不同记录中许多条件的列

    我有这样的表 Customer Product 1 1 1 2 1 3 2 1 2 2 2 2 我想选择购买了产品 1 AND 2 AND 3 的客户 因此我的查询应返回 1 如何实现这一点 如果您想要购买所有 3 个产品的客户 您可以使用
  • ansible 在 OSX 上找不到 pycurl

    我刚刚开始使用 ansible 我正在尝试让它与linodeOSX Yosemite 的模块 我正在使用brew安装的Python和pip安装的ansible 所以我做了以下事情 brew install python PYCURL SSL
  • 如何在浏览器 JS 控制台中包含脚本时覆盖内容安全策略?

    我试图以这种方式使用控制台将 JQuery 包含在现有网站上 var script document createElement script script src http code jquery com jquery 1 11 1 mi
  • 在 jQuery 中搜索和突出显示

    我想使用 jQuery Javascript 搜索并突出显示文本 示例 HTML 1 div b Good b b Morning b div div Good Evening div div Good Morning div Search
  • 添加 Maven 支持后 JavaFX 项目出现问题(应用程序启动方法中出现异常)

    我使用 JDK 1 8 创建了一个 JavaFX 项目 工作正常 但如果我尝试添加 Maven 支持 编译就会失败 首先 我尝试在 Java 11 中使用 JavaFX 11 执行此操作 但效果是相同的 我花了两天时间寻找它不起作用的原因
  • Oracle sql查询联合操作?

    我有两张桌子 TableA and TableB 这两个表都有一些包含两列的数据 如下所示 TableA id Name 1 abc 2 def TableB id Name 1 xyz 2 pqr 现在我将从我的应用程序中传递 id 列表
  • 在解释器中从 python 对象获取 ast

    我正在构建一个应用程序 我希望天真的用户为其定义一个简单的函数 然后我想采用这个函数并将其转换为抽象语法树 这也应该在交互式会话期间起作用 即使用解释器 这是我迄今为止在解释器中尝试过的 dill source getsource meth
  • jQuery/Javascript 框架效率

    我的最新项目是使用 javascript 框架 jQuery 以及一些插件 验证 jquery ui datepicker facebox 来帮助制作现代 Web 应用程序 我现在发现页面加载速度比我习惯的要慢 经过一些 js 分析 感谢
  • 使用 R 连接到 Twitter Streaming API

    我刚刚开始使用 Twitter Streaming API 并使用命令行 使用以下命令将原始 JSON 响应重定向到文件 curl https stream twitter com 1 statuses sample json u USER
  • 从“const char*”到“char”的转换无效

    我正在尝试使用以下代码行将字符串中的某个字符替换为空格 str i 如何在不出现问题标题错误的情况下实现这一点 使用单引号 str i 在 C 中 令牌 是一个字符串文字 表示两个字符的数组 字符集中的空格值 例如 ascii 中的值 32
  • 如何动态地将源添加到现有图表?

    什么可以替代动态改变运行图 这是我的情况 我有将文章摄取到数据库中的图表 文章来自 3 个不同格式的插件 因此我有几个流程 val converterFlow1 Flow ImpArticle Article NotUsed val con
  • PHP SSLstream_socket_client不会使用创建的$context

    我完全失望了 我正在连接到 ssl 服务器 并且直接连接运行良好 但是当我尝试添加流上下文以使用代理或socks5时 套接字不会使用它并且直接连接到这些 ssl 服务器非常好 我我正在通过观察 127 0 0 1 代理服务器日志进行检查 甚
  • 在 Windows 上开发 Python 和 Django 应用程序时的 .gitignore

    我应该改变什么 gitignore当我在 Windows 上使用 PTVS 开发 Python Django 应用程序时 文件是什么 GitHub 有一个不错的收集 gitignore模板 当我启动 Django 项目时 我抓住了Pytho
  • Android 中的电话号码格式

    在我的应用程序中 我有一个 editText 它将接受用户的电话号码 我的目标是 一旦用户输入电话号码 它就应该被格式化 就像通过在文本更 改侦听器上应用一样 格式就像XXX XXX XXXX 我将代码写为 ePhone addTextCh
  • Python isDisjoint() 运行时

    Python 2 7 的算法运行时是多少isDisjoint other 集合的方法 它比简单地做更快吗intersection other 然后检查len gt 0那个返回的交集 这两种情况的复杂性都是O min len s len t
  • python 2.7 的非 ASCII 标识符

    我知道在 python 3 x 中我可以使用非 ASCII 标识符 PEP 3131 x1 2 x2 4 x x2 x1 print x python 2 7有这样的功能吗 也许 有人将它移植到 2 x 分支吗 不 Python 2 中没有
  • 调用 C# 代码时,PowerShell $null 不再为 null

    在 PowerShell 中 我们可以定义 C 代码并执行它 将 null 传递到以下最简单的函数中表明 not null 被传递到函数中 Add Type TypeDefinition public static class foo pu
  • 用于访问另一个域上的文件的 CORS 标头

    我正在尝试在 Codepen 上创建一个音频可视化程序 我使用 apache 创建了自己的 Ubuntu Web 服务器 它允许我直接访问以修改服务器的标头和配置 虽然浏览器可以访问不同域上的文件 但它需要特殊的 CORS 标头来读取音频中
  • 无法连接到 android 5.1 上的本机本地套接字

    我有命令行工具 它发送广播并等待结果 服务器代码 错误处理省略 int makeAddr const char name struct sockaddr un pAddr socklen t pSockLen int nameLen str
  • 某些象形文字语言中的字计数器?

    是否有任何可用的库用于某些象形文字语言的字数统计 例如 中文 日文 韩文 我发现 MS Word 可以有效地计算这些语言的文本 我可以在 NET 应用程序中添加对 MS Word 库的引用来实现此功能吗 或者还有其他解决方案可以达到这个目的