日语/字符的编程技巧[关闭]

2024-04-10

我有一个想法，可以编写一些网络应用程序来帮助我，也许还有其他人，更好地学习日语，因为我正在学习日语。

我的问题是该网站主要是英文的，所以它需要混合流利的日语字符，通常是平假名和片假名，但后来是汉字。我离实现这个目标越来越近了；我发现页面和源文件需要是 unicode 和 utf-8 内容类型。

然而，我的问题出现在实际编码中。我需要的是操纵假名文本字符串。一个例子是：

けす我需要将这个动词转换为 te 形式けして。我更喜欢在 javascript 中执行此操作，因为它将有助于进行更多操作，但如果必须的话，我只会执行数据库调用并将所有内容保存在数据库中。

我的问题不仅是如何用 javascript 来做这件事，而且还有用其他语言做这些事情的一些技巧和策略。我希望更多地投入到语言学习应用程序中，但是当涉及到这一点时我迷失了。

到处都坚持使用 Unicode 和 utf-8。
远离本地日语编码：euc-jp、shiftjis、iso-2022-jp，但请注意，如果继续，您可能会在某个时候遇到它们。
熟悉用于执行复杂操作（如词性分析、分词等）的分段器。大多数从事日语 NLP（自然语言处理）工作的人使用的标准工具按受欢迎程度/功能排列。

MeCab http://taku910.github.io/mecab/（原来在来源锻造 http://mecab.sourceforge.net/）太棒了：它允许您获取类似的文本，


「日本語は、とても難しいです。」

并获取各种重要信息

kettle:~$ echo 日本語は、難しいです | mecab 
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
は   助詞,係助詞,*,*,*,*,は,ハ,ワ
、   記号,読点,*,*,*,*,、,、,、
難しい 形容詞,自立,*,*,形容詞・イ段,基本形,難しい,ムズカシイ,ムズカシイ
です  助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS

这基本上是词性、阅读、发音等的详细概述。它也有利于你分析动词时态，

kettle:~$ echo メキシコ料理が食べたい | mecab 
メキシコ    名詞,固有名詞,地域,国,*,*,メキシコ,メキシコ,メキシコ
料理  名詞,サ変接続,*,*,*,*,料理,リョウリ,リョーリ
が   助詞,格助詞,一般,*,*,*,が,ガ,ガ
食べ  動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい  助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
EOS

然而，文档都是日语的，设置和弄清楚如何按照您想要的方式格式化输出有点复杂。有适用于 ubuntu/debian 的软件包，以及一系列语言的绑定，包括 perl、python、ruby...

适用于 ubuntu 的 apt-repos：

deb http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
deb-src http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all

要安装的软件包：$ apt-get install mecab-ipadic-utf8 mecab python-mecab

我认为应该做到这一点。

mecab 的其他替代品是，ChaSen http://chasen.naist.jp/hiki/ChaSen/，这是 MeCab 的作者（他现在在 google 工作）多年前写的，以及Kakasi http://kakasi.namazu.org/，其威力要小得多。

我肯定会尽量避免滚动你自己的结合例程。这样做的问题在于，它需要大量的工作，而其他人已经完成了这些工作，并且最终用规则覆盖所有边缘情况是不可能的。

MeCab 由统计数据驱动，并接受大量数据的训练。它采用了一种复杂的机器学习技术，称为条件随机场（CRF）并且结果确实非常好。

和日本人一起玩吧。我不确定您的日语水平如何，但如果您需要 mecab 文档或其他方面的帮助，也请随时询问。汉字一开始可能会非常令人生畏。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

languageagnostic

Unicode

NLP

cjk

日语/字符的编程技巧[关闭] 的相关文章

在生产中使用 babel-node 可以吗

我一直在使用 babel node 和 browserify 以及 babelify 转换来开发一个网站以支持 ES6 语法我只是想知道我可以在生产中运行它吗 babel node server 而不是 node server 要在
如何使弹出窗口出现在我的鼠标进入悬停目标的位置？

这是一个示例代码用于显示我的按钮下方的弹出窗口 fn popover defaults extend fn tooltip defaults placement bottom content 现在我希望弹出窗口出现在光标移动的位置不仅是
优化数据可视化 Web 应用程序的性能

我正在重写 3 年前编写的数据可视化网络工具从那时起浏览器的 JavaScript 引擎变得更快所以我正在考虑将部分工作从服务器转移到客户端在页面上数据在表格和地图或图表中可视化它使用相同的数据但以不同的方式因此准备显示
使用画布元素作为文本区域

我正在寻找有关如何使用类似于文本区域的画布元素的直接描述我见过这样的项目Ace http ace ajax org 只是想知道如何像文本区域一样写入该区域只是纯文本没有什么花哨的提前致谢 Ace 曾经是 Mozilla Skywri
向 JS 计算器添加键盘支持时出现的问题

我想为我的计算器添加键盘支持当我用键盘按下操作即或时 js将其视为数字而不是操作例如当我通过点击计算 10 11 时我将得到 21 作为结果当我通过键盘输入时我会得到 10 为什么会发生这种情况是否可以改变它 div
Sails.js - 如何更新嵌套模型

attributes username type email validated by the ORM required true password type string required true profile firstname s
如何在下拉列表中选择一个选项

我正在使用 AngularJS 指令我需要在模板中设置下拉列表的选定选项
变量前面加双下划线

我的节点代码中有以下代码片段 var fs require fs fs readdir dirname function err files console log files 为什么变量 dirname 有双下划线我知道一个下划线是私有
语法：const {} = 变量名，任何人都可以解释或指出我正确的方向[重复]

这个问题在这里已经有答案了这个语法在 JavaScript 中意味着什么可能是 ES6 const 变量名我目前正在尝试掌握 React 在很多例子中我都遇到过这种语法例如 const girls guys women men st
getElementsByClassName & IE8：对象不支持此属性或方法[重复]

这个问题在这里已经有答案了 I know getElementsByClassName 不支持IE8 你知道我可以用什么来代替吗我因错误而变得烦人对象不支持此属性或方法 HTML 代码是 function sumar var elems
Javascript：通过将路径作为字符串传递给对象来获取对象的深层值[重复]

这个问题在这里已经有答案了可能的重复使用字符串键访问嵌套的 JavaScript 对象 https stackoverflow com questions 6491463 accessing nested javascript obje
使用 Javascript eval() 100% 安全吗？

我正在编写一个生成 Javascript 代码的 PHP 库 Javascript 代码有许多名为component001 component002 etc 页面通过 AJAX 动态加载我需要通过 URL 变量传递组件的名称然后由脚本进
属性访问器（getter）的扩展运算符问题

我很难理解为什么以下代码存在一些问题https jsfiddle net q4w6e3n3 3 https jsfiddle net q4w6e3n3 3 Note 所有示例均在 chrome 版本 52 0 2743 116 中进行测试
如何在服务器端按钮点击时关闭当前标签页？

我尝试在确认后关闭当前选项卡因此我将以下代码放在确认按钮的末尾但选项卡没有关闭 string jScript ClientScript RegisterClientScriptBlock this GetType keyClientBl
全局未在 ../node_modules/socket.io-parser/is-buffer.js 中定义

预先感谢您帮助我我正在尝试在我的一个角度组件中连接套接字但在浏览器的控制台中它会抛出一个错误指出 Global 未在 Object node modules socket io parser is buffer js 中定义这是我的
表单序列化javascript（无框架）

想知道 javascript 中是否有一个没有 jquery 或任何框架的函数可以让我序列化表单并访问序列化版本 2023 年更新 Use FormData https developer mozilla org en US docs We
简单的颜色变化

我正在创建一个用户界面用户可以在其中更改页面的颜色值我想要的是获取分配给其背景颜色的值并将其变亮一定程度我只是想获得一条亮点线而不必每次都制作新图像示例用户将背景颜色设置为 ECECEC 现在我希望某个元素边框变成 F4F4F4
当选项卡重新加载（chrome 扩展）时，如何运行此脚本？

所以我想在指定 URL 中重新加载选项卡时运行脚本它几乎可以工作但实际上 id 不能这是我的清单文件 manifest version 2 name Sample Extension description Sample Chrome
window.open 使用 css 样式

我想设计我的 window open 目前我的网页上有一些项目由于解析了某个类而打开然后在新窗口中打开指定的文本我想更改字体大小字体和填充等这是我的 JavaScript 代码
指定在任何 Jest 设置发生之前运行的代码

tl dr 是 1 我怎样才能让Jest使用原生的require函数可以在任何地方加载我的测试中的所有模块 2 我将在哪里如何进行修改即替换为esm加载程序 https github com standard things esm ht

随机推荐

实体框架6错误无法加载指定的元数据资源

我在解决方案中使用实体框架 6 和模型优先我将数据模型类分离到另一个项目中以便我可以添加对数据模型类的引用而无需公开我的数据模型上下文和连接我不想将我的实体数据模型项目尤其是数据库上下文等暴露给我的 UI 层我有
图像绘制速度

我正在开发一款游戏但目前我正在运行基准测试如果有人能在这件事上帮助我我将不胜感激我正在做的是当我单击开始按钮时使用以下代码在面板上触发绘制事件 private void startToolStripMenuItem Click
共享 ViewModel 以帮助片段和父 Activity 之间的通信

虽然 JetPack 的导航组件看起来很有前途但我却找不到实现我想要的东西的方法让我们看一下示例应用程序屏幕该应用程序有一个主要活动一个顶部工具栏一个带有 fab 的底部工具栏我面临着两个挑战我想以正确的方式解决它们 1 我需
从密度对象（或更广泛地从一组数字）生成随机数

假设我有一组数字我怀疑它们来自同一分布 set seed 20130613 x lt rcauchy 10 我想要一个从相同的未知分布中随机生成一个数字的函数我想到的一种方法是创建一个density对象然后从中获取 CDF 并取随机均
(go-sql-driver/mysql) packet.go 中出现意外的 EOF 和繁忙缓冲区

我正在得到unexpected EOF and busy buffer错误于go sql driver mysql尽管设置后SetConnMaxLifetime SetMaxIdleConns and SetMaxOpenConns按照建议
使用猫鼬保存图像

我知道已经有很多关于这个主题的帖子但不幸的是直到现在我才找到答案我将 angular js 与示例代码一起使用http angular js in image upload http angular js in image upload
从流而不是文件加载配置文件

我使用 OpenMappedExeConfiguration 和 ExeConfigurationFileMap 来加载配置文件它们的重载表明它们只适用于文件名有没有办法从流加载配置文件背景我想加载存储为嵌入式资源的配置文件没有文
self.method = environ['REQUEST_METHOD'].upper() KeyError: 'REQUEST_METHOD' 使用 uwsgi 在 EC2 上设置 django 服务器时

我得到了当我击中http ec2 X YZ ABC EFG compute 1 amazonaws com admin 我很确定我的 Django 应用程序没有任何问题因为该应用程序是空的即我刚刚使用创建了该应用程序django a
TSQL：提交时触发

我们有一个后台系统可以通过以下方式将发票信息插入到 SQL 数据库中 MSDTC http en wikipedia org wiki Distributed Transaction Coordinator存储过程中应用程序插入标头然
浏览器推送通知出现错误“AbortError：注册失败 - 推送服务不可用”

我创建了一个系统使用 Firefox 和 Chrome 的浏览器推送通知来与网站访问者进行更多交互我正在查看我的 Google Analytics 事件了解订阅失败的原因最大的原因是推送服务不可用我查遍了一切试图找到这意味着什
使用 PowerShell 替换文本文件的内容

我浏览了这个网站似乎找不到任何适合我情况的内容基本上我正在尝试向 NETLOGON 文件编写一个附加内容以替换所有用户桌面上的文本文件中的文本当前文本全面静态我想要更改的文本对于每个用户来说都是唯一的我想将当前文本 user1
xmlstarlet：过滤掉带有属性的元素

如何过滤掉某些类型的不具有神奇值属性的元素并保留文档的其余部分所有这一切都使用xmlstarlet 到目前为止我所要做的是 cat lt lt EOF gt database xml
ECS 服务 - 使用新的 Docker 映像自动部署

我想通过使用最新的 Docker 映像启动我的 ECS 服务来自动部署应用程序据我了解部署新镜像版本的方法如下创建新的任务修订版更新 Docker 存储库上的映像后更新服务并指定新版本这似乎可行但我想通过 CLI 来完成这一切
SHA256CryptoServiceProvider 和相关的可以在 WinXP 上使用吗？

是否可以在 Windows XP 上使用 SHA256CryptoServiceProvider 和相关 SHA2 提供程序我知道提供商使用 Vista 及更高版本中包含的加密服务是否可以在 Microsoft XP 中安装这些服务 E
在 Objective-C 中存储和检索数字对的快速方法

我正在实现排队洪水填充算法需要存储和检索数字对NSMutableArray 基本上我正在创建一个数组 m queue NSMutableArray array 然后有时我填充数组 m queue addObject NSValue va
下载时出错

下载控制台会返回以下错误帧加载因策略更改而中断 Example a href app exe Start Download a Console Preview 我应该在中配置一些东西吗Compiler or QWeb设置我发现了在传统
无法使用 Windows 10 移动技术预览版将通用应用程序部署到手机

我已解锁开发者卢米亚 635昨天刚刚更新为Windows 10 移动版技术预览版 http windows microsoft com en us windows preview download phone 操作系统版本 10 0 125
Perl 构造函数应该返回 undef 或“无效”对象吗？

Question 什么被认为是最佳实践 and why 处理构造函数中的错误最佳实践可以引用 Schwartz 的话或者 50 的 CPAN 模块使用它等等但我对任何人提出的合理意见感到满意即使它解释了为什么常见的最佳实践并不
无法在 Primefaces RequestContext.execute() 调用中显示对话框

我有一个选项卡视图只要用户选择该选项卡我就想在其中刷新该选项卡的内容我还希望在刷新选项卡时弹出模式对话框这是带有 tabChange ajax 事件处理程序的 tabView
日语/字符的编程技巧[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法可以编写一些网络应用程序来帮助我也许还有其他人更好地学习日语因为我正在学习日语我的问题是该网站主要是英文的所以

日语/字符的编程技巧[关闭]

日语/字符的编程技巧[关闭] 的相关文章

随机推荐

热门标签