尝试让 libmecab.dll (MeCab) 与 C# 一起使用

2024-03-29

我正在尝试使用日本形态分析仪MeCab http://mecab.sourceforge.net/在 C# 程序（Visual Studio 2010 Express、Windows 7）中，编码出现问题。如果我的输入（粘贴到文本框中）是这样的：


一方、広義の「ネコ」は、ネコ類（ネコ科動物）の一部、あるいはその全ての獣を指す包括的名称を指す。

然后我的输出（在另一个文本框中）如下所示：



?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
(   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
)   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
?????????????????????????   åè©ž,ã‚µå¤‰æŽ¥ç¶š,*,*,*,*,*
EOS

我猜想其他编码中的文本会被误认为是 UTF-8 编码的文本。但假设它是 EUC-JP 并使用 Encoding.Convert 将其转换为 UTF-8 不会改变输出；假设它是 Shift-JIS 并且执行相同的操作会产生不同的乱码。另外，虽然它确实在处理文本——这就是 MeCab 输出应该被格式化的方式——但它似乎也没有将输入解释为 UTF-8。如果这样做的话，输出中就不会有所有以单字符“化合物”开头的相同行，而它显然无法识别这一点。

当我通过 MeCab 的命令行运行该句子时，我得到了另一组看起来不同的乱码。但是，同样，它只是从左侧向下的一排单个问号和括号，因此这不仅仅是 Windows 命令行不支持日语字符字体的问题；而是 Windows 命令行不支持日语字符的问题。再说一遍，它只是不读取 UTF-8 格式的输入。（我确实以 UTF-8 模式安装了 MeCab。）

代码的相关部分如下所示：



[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl)]
private extern static IntPtr mecab_new2(string arg);
[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl)]
[return: MarshalAs(UnmanagedType.AnsiBStr)]
private extern static string mecab_sparse_tostr(IntPtr m, string str);
[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl)]
private extern static void mecab_destroy(IntPtr m);

private string meCabParse(string jpnText)
{
    IntPtr mecab = mecab_new2("");
    string parsedText = mecab_sparse_tostr(mecab, jpnText);

    mecab_destroy(mecab);
    return parsedText;
}

（在摆弄看似合理的东西以查看它们是否有所作为方面，我尝试将“UnmanagementType.AnsiBStr”切换为“UnmanagementType.BStr”，这给出了错误“AccessViolationException未处理”，并添加“CharSet= CharSet.Unicode” 到 DllImport 参数，这将输出变成“EOS”。）

这就是我一直在进行转换的方式：



// 65001 = UTF-8 codepage, 20932 = EUC-JP codepage
private string convertEncoding(string sourceString, int sourceCodepage, int targetCodepage)
{
    Encoding sourceEncoding = Encoding.GetEncoding(sourceCodepage); 
    Encoding targetEncoding = Encoding.GetEncoding(targetCodepage);

    // convert source string into byte array
    byte[] sourceBytes = sourceEncoding.GetBytes(sourceString);

    // convert those bytes into target encoding
    byte[] targetBytes = Encoding.Convert(sourceEncoding, targetEncoding, sourceBytes);

    // byte array to char array
    char[] targetChars = new char[targetEncoding.GetCharCount(targetBytes, 0, targetBytes.Length)];

    //char array to targt-encoded string
    targetEncoding.GetChars(targetBytes, 0, targetBytes.Length, targetChars, 0);
    string targetString = new string(targetChars);

    return targetString;
}

private string meCabParse(string jpnText)
{
    // convert the text from the string from UTF-8 to EUC-JP
    jpnText = convertEncoding(jpnText, 65001, 20932);

    IntPtr mecab = mecab_new2("");
    string parsedText = mecab_sparse_tostr(mecab, jpnText);

    // annnd convert back to UTF-8
    parsedText = convertEncoding(parsedText, 20932, 65001);

    mecab_destroy(mecab);
}

建议/嘲讽？

我遇到了这个线程，正在寻找一种方法来做同样的事情。我使用你的代码作为起点这篇博文 http://blog.gebhardtcomputing.com/2007/11/marshal-utf8-strings-in-net.html用于弄清楚如何编组 UTF8 字符串。

以下代码为我提供了正确编码的输出：

public class Mecab
{
    [DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl, CharSet=CharSet.Unicode)]
    private extern static IntPtr mecab_new2(string arg);
    [DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl, CharSet = CharSet.Unicode)]
    private extern static IntPtr mecab_sparse_tostr(IntPtr m, byte[] str);
    [DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl, CharSet = CharSet.Unicode)]
    private extern static void mecab_destroy(IntPtr m);

    public static String Parse(String input)
    {
        IntPtr mecab = mecab_new2("");
        IntPtr nativeStr = mecab_sparse_tostr(mecab, Encoding.UTF8.GetBytes(input));
        int size = nativeArraySize(nativeStr) - 1;
        byte[] data = new byte[size];
        Marshal.Copy(nativeStr, data, 0, size);

        mecab_destroy(mecab);

        return Encoding.UTF8.GetString(data);
    }

    private static int nativeArraySize(IntPtr ptr)
    {
        int size = 0;
        while (Marshal.ReadByte(ptr, size) > 0)
            size++;

        return size;
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

尝试让 libmecab.dll (MeCab) 与 C# 一起使用的相关文章

pthread_create 编译返回错误

我使用以下代码创建两个线程 header files include
使 minGW 控制台程序在没有控制台的情况下运行

我在 MinGW 中制作了一个控制台程序它执行网络和文件操作然而它是一个控制台程序如何让它安静地运行没有控制台没有窗口尝试这个 ShowWindow GetConsoleWindowHandle SW HIDE GetCons
使用参数将数据插入access数据库

我有以下方法将数据插入到访问数据库中该方法工作正常但如果我尝试插入包含我学到的单引号的文本我确实会遇到问题 WebMethod public void bookRatedAdd string title int rating stri
在 Windows 上实现堆栈跟踪 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我正在为我正在编写的游戏实现一个崩溃报告工具并且我想为该报告提供相当详细的本机堆栈跟踪我已经在 GNU Linux 上实现
访问二维数组的一行末尾之后的元素是否是 UB？

以下程序的行为是否未定义 include
lua_resume 的 from 参数的含义

From Lua 5 2 参考手册 http www lua org manual 5 2 manual html lua resume int lua resume lua State L lua State from int nargs
如果文本框不为空，如何添加并显示工具提示文本框 WPF

需要显示提示其中包含文本字段中的数据文本框有数据时出现提示只需使用绑定到 ToolTipService 附加属性即可 XAML
为 C# 和 C++ 应用程序编写 DLL

我需要编写几个 DLL 它们都可以从 C 应用程序和 C 应用程序访问最初我认为通过用 C 编写 DLL 并从 C 和 C 应用程序链接到它们可以节省时间精力这种方法明智吗还是应该使用 C 编写 DLL 我的建议是在您最舒服的地方
可变长度数组性能影响 (C/C++)

我正在编写一个相当简单的函数它将数组发送到文件描述符但是为了发送数据我需要附加一个一字节标头这是我正在做的事情的简化版本它似乎有效 void SendData uint8 t buffer size t length uint8
使用 ASP.NET Core Identity 将令牌保存在 Cookie 中

我想在我的身份生成的 cookie 中保存一些内容我目前正在使用文档中的默认身份设置启动 cs services Configure
将引用托管代码中分配的内存的指针传递给非托管代码

我在 C 中分配了一个大的 char 缓冲区并且希望将指向此数据的指针传递给 DLL 中的未管理的 c 函数现在我认为要使其工作必须修复字符缓冲区以便 GC 在函数工作时无法移动它如果是这样我会声明缓冲区已固定并调用 UNSAF
将对象转换为泛型类型

我已经有一段时间没有睡觉了所以这可能比我想象的要容易我有一个通用类或多或少是这样的 public class Reference
Azure：MissingRegistrationForLocation：未在位置“YYYY”中为资源类型“XXXX”注册订阅

这最初是作为未找到订阅 https stackoverflow com questions 35071797 subscriptionnotfound the subscription resourcegroups could not be
LINQ 表达式树 Any() 位于Where() 内

我正在尝试生成以下 LINQ 查询 Query the database for all AdAccountAlerts that haven t had notifications sent out Then get the entity
绑定到外部库中基本方法的方法无法处理“之间”的新虚拟方法

假设我有一个库版本 1 0 0 包含以下内容 public class Class1 public virtual void Test Console WriteLine Library Class1 Test Console Write
OledbConnection.Dispose() 是否关闭连接？ [复制]

这个问题在这里已经有答案了可能的重复如果使用 using 子句是否需要关闭 DbConnection https stackoverflow com questions 12033998 is there any need to cl
MDI 窗体中的子窗口对接

我有一个 MDI 表单和其中的一些子表单我将子窗体停靠到 MDI 窗口的不同区域但是当任何子窗体失去焦点时其他停靠的窗体将重新排列由于混乱我准备了一组图像来展示该行为 Image1 单击任何窗口之前 Image2 点击窗口2后问
缓存行对齐（需要文章澄清）

我最近在我的应用程序中遇到了我认为是错误共享的问题我查了一下关于如何将我的数据与缓存行对齐他建议使用以下 C 代码 C using C 0x alignment syntax template
Security.h 中结构的 macOS 文档

我正在尝试使用Security h通过 Java 和 JNA 的 macOS 框架这意味着我需要将某些结构重建为 Java 类问题是当我查看文档中的结构时 this one https developer apple com refe
生成唯一随机数的智能方法

我想生成 00000001 到 99999999 范围内的唯一随机数序列所以第一个可能是 00001010 第二个可能是 40002928 等等最简单的方法是生成一个随机数并将其存储在数据库中下次再执行一次并检查数据库中该数字是否已存

随机推荐

如何在 Spark Java 中遍历/迭代数据集？

我正在尝试遍历数据集来进行一些字符串相似度计算例如 Jaro winkler 或余弦相似度我将数据集转换为行列表然后使用 for 语句进行遍历这不是有效的 Spark 方法所以我期待 Spark 中有更好的方法 public cl
具有多个 url 路径的 CherryPy MethodDispatcher

是否MethodDispatcher from CherryPy处理多个 url 路径我正在尝试做类似下面的事情但是虽然要求 customers工作正常要求 orders始终返回 404 没有任何内容与给定的 URI 匹配 class
Node.js 中的作业队列

我正在node js 中寻找一个可以由php 调用的作业队列管理器这是一个需要发送电子邮件创建 pdf 文件等的 Web 应用程序我想对这些应用程序执行异步 php 进程流程示例用户请求 php 页面 Php调用作业队列管理器并添
如何订购 kif 测试用例序列？

我使用了最新版本的 KIF 框架并创建了几个测试用例 KIFTestCase 的子类我可以知道有什么方法可以改变测试运行序列的顺序吗例如我有 testA m testB m testC m 当我按下 cmd U 进行测试时如何制作诸如
C# 字段命名指南？

我将自己编写一些 C 代码但我想确保遵循最广泛接受的命名约定以防我想引入其他开发人员发布我的代码或出售我的代码现在我遵循微软设定的命名约定因为它们似乎是最广泛接受的他们没有提到的一件事是私有字段的命名在大多数情况下我看到它们
FindNextFile 在 64 位 Windows 上失败？

使用 C Builder 2007 FindFirstFile 和 FindNextFile 函数似乎无法在 64 位版本的 Vista 和 XP 上找到某些文件我的测试应用程序是 32 位的如果我使用它们遍历文件夹 C Windows
任意金额、任意时间的定期付款？

我们希望找到一个支付提供商可以让我们做类似于 Hailo 的事情即用户注册并向我们提供他们的信用卡详细信息授权我们向他们的帐户收费他们只需要这样做once 在 Hailo 的例子中用户可以随时乘坐出租车并收取任意金额的费用在合
通过 emacs shell 进行 ssh 吗？

我想知道是否有人通过 emacs shell 使用 ssh 我能够连接到远程计算机但无法使用 emacs 文件名打开文件以使用 emacs 查看编辑因为终端类型哑不足以运行 emacs 通常 emacs 会在控制台中打开通过
尚不支持运算符重载？

根据 Swift 编程指南运算符重载是允许的而且实际上非常通用但是我无法让它在操场上工作例如 Equatable协议想要这样 func lhs Self rhs Self gt Bool 假设我做了一个简单的Location3D
VS Code：“isort 服务器在过去 3 分钟内崩溃了 5 次......”

我可能弄乱了一些环境路径变量我一边学习 Django 和虚拟环境一边修改 VS Code 并更改了 Python 安装的目录路径在弄清楚如何指向 VS Code 的默认 Python 路径时我删除了一些用户路径变量然后伊索开始拒
如何在 google colab 中运行 matlab .m 文件

我目前正在尝试运行这个存储库https github com Fanziapril mvfnet https github com Fanziapril mvfnet这需要一个步骤 Run the Matlab ModelGeneratio
已确认设计在最新版本中不起作用

我最近从 Devise 1 2 升级到 1 4 9 除了我的可确认模块之外一切似乎都正常电子邮件以及整个过程都有效但确认页面始终是空白的它可以工作并确认电子邮件帐户但不会重定向用户并引发 406 错误对于错误确认尝试它也会执行
iframe 不工作

我正在尝试让 Iframe 正常工作我正在运行 safari 所以它是兼容的但是当我测试它时它显示为空白代码 p Your browser does not support iframes p 使用尝试一下编辑器后我直接从 w
您如何比较 IIS 和 Cassini 作为生产服务器？

我有一个 ASP NET 网站当前在 IIS 上运行现在我想将该站点移至卡西尼号上运行 Cassini 与 IIS 相比有哪些优势它的缺点是什么您使用 Cassini 作为生产网络服务器的体验如何据我所知您不能在生产中使用 Ca
比较给出错误输出的日期

我正在创建一个函数来检查充满日期的数据库表中哪个日期小于当前日期和过去一样我有 3 个日期来测试该函数以及它们背后的输出上个月的日期 2015年4月28日 16 32 00日期尚未到来 11 06 2015 13 12 00上周日期
java并发：多生产者一消费者

我遇到一种情况不同的线程填充一个队列生产者并且一个消费者从该队列中检索元素我的问题是当从队列中检索这些元素之一时某些元素会丢失丢失信号生产者代码是 class Producer implements Runnable pri
Perl 如何在空格上分割行，除非空格用双引号引起来？

我有以下字符串 StartProgram 1 C Program Files ABC ABC XYZ CleanProgramTimeout 1 30 我需要一个正则表达式来分割这一行但忽略 Perl 中双引号中的空格以下是我尝试过的但
Time.advance 记录在哪里？

在网上查了一下我发现 RubyTime班级有Time advance 这是在哪里记录的我在 Ruby API 文档中没有看到任何提及它here http apidock com ruby Time API 文档的搜索功能表明任何地方都
将进程附加到远程 PC 上正在运行的进程

我正在开发一个 C 应用程序该应用程序在远程 PC 上运行我有 VPN 连接并使用 RDP 会话我可以登录到该计算机在那台计算机上在正在运行的进程旁边还有两个 msvsmon exe 进程在任务管理器中具有以下命令行条目
尝试让 libmecab.dll (MeCab) 与 C# 一起使用

我正在尝试使用日本形态分析仪MeCab http mecab sourceforge net 在 C 程序 Visual Studio 2010 Express Windows 7 中编码出现问题如果我的输入粘贴到文本框中是这样的

尝试让 libmecab.dll (MeCab) 与 C# 一起使用

尝试让 libmecab.dll (MeCab) 与 C# 一起使用 的相关文章

随机推荐

热门标签

尝试让 libmecab.dll (MeCab) 与 C# 一起使用的相关文章