如何在 Linux 中使用 POSIX 方法从文件中读取 Unicode-16 字符串？

2024-02-25

我有一个包含 UNICODE-16 字符串的文件，我想将其读入 Linux 程序。这些字符串是根据 Windows 内部 WCHAR 格式编写的。（Windows 总是使用 UTF-16 吗？例如在日语版本中）

我相信我可以使用原始读取来读取它们并使用 wcstombs_l 进行转换。但是，我不知道要使用什么区域设置。在我最新的 Ubuntu 和 Mac OS X 机器上运行“locale -a”会产生名称中带有 utf-16 的零个语言环境。

有没有更好的办法？

更新：正确的答案和下面的其他答案帮助我指出使用 libiconv。这是我用来进行转换的函数。我目前将它放在一个类中，该类将转换为一行代码。

// Function for converting wchar_t* to char*. (Really: UTF-16LE --> UTF-8)
// It will allocate the space needed for dest. The caller is
// responsible for freeing the memory.
static int iwcstombs_alloc(char **dest, const wchar_t *src)
{
  iconv_t cd;
  const char from[] = "UTF-16LE";
  const char to[] = "UTF-8";

  cd = iconv_open(to, from);
  if (cd == (iconv_t)-1)
  {
    printf("iconv_open(\"%s\", \"%s\") failed: %s\n",
           to, from, strerror(errno));
    return(-1);
  }

  // How much space do we need?
  // Guess that we need the same amount of space as used by src.
  // TODO: There should be a while loop around this whole process
  //       that detects insufficient memory space and reallocates
  //       more space.
  int len = sizeof(wchar_t) * (wcslen(src) + 1);

  //printf("len = %d\n", len);

  // Allocate space
  int destLen = len * sizeof(char);
  *dest = (char *)malloc(destLen);
  if (*dest == NULL)
  {
    iconv_close(cd);
    return -1;
  }

  // Convert

  size_t inBufBytesLeft = len;
  char *inBuf = (char *)src;
  size_t outBufBytesLeft = destLen;
  char *outBuf = (char *)*dest;

  int rc = iconv(cd,
                 &inBuf,
                 &inBufBytesLeft,
                 &outBuf,
                 &outBufBytesLeft);
  if (rc == -1)
  {
    printf("iconv() failed: %s\n", strerror(errno));
    iconv_close(cd);
    free(*dest);
    *dest = NULL;
    return -1;
  }

  iconv_close(cd);

  return 0;
} // iwcstombs_alloc()

最简单的方法是将文件从 utf16 转换为 utf8 本机 UNIX 编码，然后读取它，

iconv -f utf16 -t utf8 file_in.txt -o file_out.txt

您还可以使用 iconv(3)（请参阅 man 3 iconv）使用 C 转换字符串。大多数其他语言也与 iconv 绑定。

您可以使用任何 UTF-8 语言环境，例如 en_US.UTF-8，通常是默认语言环境在大多数 Linux 发行版上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Windows

Linux

Unicode

POSIX

wchart

如何在 Linux 中使用 POSIX 方法从文件中读取 Unicode-16 字符串？的相关文章

在Linux伪终端中执行从一个终端发送到另一个终端的字符串

假设我有一个终端其中 tty 的输出是 dev pts 2 我想从另一个终端向第一个终端发送命令并执行它使用 echo ls gt dev pts 2 仅在第一个终端中打印 ls 有没有办法执行字符串不终端不执行命令它们只是数据的
Windows 中“nice”的等效词

Windows 中是否有相当于 Unix 命令的命令 nice 我正在专门寻找可以在命令行中使用的东西并且not任务管理器中的设置优先级菜单我在谷歌上寻找这个的尝试被那些想不出更好形容词的人挫败了如果您想在启动进程时设置优先级您
Windows 中的信号处理

在Windows中我试图创建一个等待SIGINT信号的python进程当它收到SIGINT时我希望它只打印一条消息并等待SIGINT的另一次出现所以我使用了信号处理程序这是我的 signal receiver py 代码 impo
在单个命令中使用前缀重命名文件夹中的所有文件

重命名带有前缀的文件夹中的所有文件 Unix 假设一个文件夹有两个文件 a txt b pdf 那么它们都应该从一个命令重命名为 Unix a txt Unix b pdf 如果您的文件名包含没有空格并且你没有任何子目录你可以使用一个简单
如何使用 Windows 命令行环境查找和替换文件中的文本？

我正在使用 Windows 命令行环境编写批处理文件脚本并希望用另一个文件例如 BAR 更改文件中某些文本例如 FOO 的每次出现最简单的方法是什么有内置函数吗这里的很多答案都帮助我指明了正确的方向但是没有一个适合我所以我发
UTF-8 在 Python 日志记录中，如何？

我正在尝试使用 Python 的日志记录包将 UTF 8 编码的字符串记录到文件中作为一个玩具示例 import logging def logging test handler logging FileHandler home ted
字符串中unicode字符的正则表达式

我正在使用 C 进行一些 OCR 工作并提取了我需要使用的文本现在我需要使用正则表达式解析一行 string checkNum string routingNum string accountNum Regex regEx new Re
Java 统一编码

A Java char is 2 bytes http java sun com docs books tutorial java nutsandbolts datatypes html 最大大小为 65 536 但有95 221 http
如何将 man 和 zip 添加到 Windows 上的“git bash”安装中

我在用git bash https git for windows github io 在 Windows 上即git对于 Windows 通过集成bash 显然它使用的是MINGW MSYS支撑来自 VonC 的更新现在使用 msy
是否可以找到哪个用户位于 localhost TCP 连接的另一端？

这是一个编程问题但它是 Linux Unix 特定的如果我从本地主机获得 TCP 连接是否有一种简单的方法可以告诉哪个用户在 C 程序内建立了连接而无需 shell 我知道这对于 Unix 域套接字来说并不太难我已经知道远程 IP
为什么 SetCursorPos 将光标位置重置到显示屏的左侧？

SetCursorPos https learn microsoft com en us windows win32 api winuser nf winuser setcursorpos将光标移动到指定的屏幕坐标然而它似乎有一个错误
为什么使用Python的os模块方法而不是直接执行shell命令？

我试图了解使用Python的库函数执行特定于操作系统的任务例如创建文件目录更改文件属性等背后的动机是什么而不是仅仅通过执行这些命令os system or subprocess call 例如我为什么要使用os chmod而不是
jpackage linux 创建的桌面文件不足

我刚刚开始使用 jpackage 它是一个非常棒的工具只要迈出一步我的肩上的工作就减轻了很多我对看起来硬编码且无法定制的东西越感到惊讶 JPackage 自动生成启动器 lib
如何以编程方式检索“Program Files”文件夹的实际路径？ [复制]

这个问题在这里已经有答案了可能的重复 C 如何在 Windows Vista 64 位上获取程序文件 x86 https stackoverflow com questions 194157 c sharp how to get prog
测试linux下磁盘空间不足

我有一个程序当写入某个文件的磁盘空间不足时该程序可能会死掉我不确定是否是这种情况我想运行它并查看但我的测试服务器不会很快耗尽空间有什么办法可以嘲笑这种行为吗看起来没有任何方法可以在 Ubuntu 中设置文件夹文件大小限制并
使用 sed 将 old-link-url 替换为 new-link-url

我正在 bash 中编写一个脚本将 old link url 替换为 new link url 我的问题是 sed 由于斜杠而无法替换 url 如果我只输入一些文字就可以了 my code sed e s old link new lin
Windows 服务器上的 .htaccess 文件

我进行了研究发现我的 htaccess 文件无法在我的新 Windows 服务器上运行我发现我应该使用 web config 我尝试了一下但没有任何效果然后我发现我可以使用 htaccess 文件但我必须将其命名为其他名称例如
ARM 系统调用的接口是什么？它在 Linux 内核中的何处定义？

我读过有关 Linux 中的系统调用的内容并且到处都给出了有关 x86 架构的描述 0x80中断和SYSENTER 但我无法追踪 ARM 架构中系统调用的文件和进程任何人都可以帮忙吗我知道的几个相关文件是 arch arm kerne
将 stdout 作为命令行 util 的文件名传递？

我正在使用一个命令行实用程序该实用程序需要传递文件名以将输出写入例如 foo o output txt 它唯一写入的东西stdout是一条消息表明它运行成功我希望能够通过管道传输写入的所有内容output txt到另一个命令行实用程
系统错误 124 - SHFileOperation 的 ERROR_INVALID_LEVEL

我在使用时遇到问题SHFileOperation SHFileOperation SHFILEOPSTRUCT https stackoverflow com questions 9191415 shfileoperation shfile

随机推荐

导入 scipy.stats 后 Ctrl-C 使 Python 崩溃

我在 Win7 64 位上运行 64 位 Python 2 7 3 我可以通过这样做可靠地使 Python 解释器崩溃 gt gt gt from scipy import stats gt gt gt import time gt gt
Sitecore - 将网址中的“”重写为“-”，但仍然允许破折号作为合法的项目名称

我读过六本关于在 Sitecore 中将空间重写为更友好的内容的指南但所有这些指南都依赖于 Sitecore
有什么方法可以防止水平滚动触发 OS X Lion Safari 上的向后滑动手势？

我正在开发一个使用水平滚动的用户界面div元素使用overflow scroll 我无法向左滚动因为它会启动动画以返回历史同样当有一个网站可供前进时我无法向右滚动它在其他浏览器上运行良好包括 OS X Lion 上的 Chro
如何为使用 Powershell 的每个人设置文件夹的写入权限

我试图与所有人共享一个文件夹并使用以下命令但它不起作用 NET SHARE Movies C foldername GRANT Everyone FULL 运行此命令后会出现一条消息电影共享成功但当我检查文件夹权限时它不会显示相同
如何排除积极回顾后发生的情况？

假设我有以下内容markdown列出项目 x Example of a completed task x Example of a completed task x Example of a completed task 我有兴趣使用解析该
导出 mupdf 和 android studio 0.5.4

第一我想在我的 Android 应用程序中查看 pdf 文件我用谷歌搜索并分析并决定使用mupdf http www mupdf com 首先我使用本指南 http mupdf blogspot ru 2013 01 compile m
React setState 从状态中擦除 getter 和 setter

我正在尝试实现一个函数使对象中的某些属性依赖于其他一些属性或者 computed 这个想法很大程度上受到computed在 vue js 中 https v2 vuejs org v2 api computed 该函数如下所示 give
ant 迭代文件

我想迭代 jar 列表未定义的数量并将它们全部添加到 jar 文件中为了添加它们我计划使用这样的东西
Jquery 中的 Append 内的 Append、Append 内的 Iframe

我看过将内容插入 iFrame https stackoverflow com questions 21795761 insert content into iframe和他们的小提琴http jsfiddle net 8VP4y 3 ht
使用 PHP SDK 进行身份验证后，Facebook 会话为 NULL

我可以使用我的 Facebook 应用程序登录但我得到的会话始终为 NULL 这是我的整个 PHP 代码
Scapy：原始 ICMP 数据包没有回复

我已经构建了一个数据包scapy a IP dst 192 168 0 1 proto 1 x08 x00 xf7 xff x00 x00 x00 x00 I run send a Wireshark 显示有来自 192 168 0 1 的
JavaFX 2.1 更改 ScrollPane 滚动条大小

我试图弄清楚如何更改滚动窗格滚动条大小以使其在 javafx 2 1 中更宽 ScrollBar 宽度基于 ScrollPane 的字体大小将 JScrollPane 的字体大小设置为较大的值并如果需要将 JScrollPane 内
在 Colab 中使用“imgaug”进行图像数据增强并没有按预期工作

我正在扩充我的图像数据集其中也包含关键点因此我正在使用imgaug图书馆以下是增强代码 kps KeypointsOnImage keypoints shape image shape seq iaa Sequential iaa A
用 R 求解欠定线性系统

R 可以求解欠定线性系统 A matrix 1 12 2 3 4 T B 1 3 qr A rank 3 qr solve A B solutions will have one zero not necessarily the same
Haskell 整数文字如何在不在 Eq 类中的情况下进行比较？

在 Haskell 中至少在 GHC v8 8 4 中 Num类确实NOT暗示着处于Eq class ghci GHCi version 8 8 4 https www haskell org ghc for help gt gt let
JTable-绘制单元格中的内容（文本）

我有一个 JTable 我有一个在表行和列中实现搜索的方法我使用正则表达式并且我想绘制例如黄色与单元格中的正则表达式匹配的文本我想绘制文本而不是单元格的背景而只绘制与 reg 表达式匹配的单词部分我的搜索方法的代码是 for
对绘图中的轴重新排序

我有大约 3 年的数据按月和年组织我想将这些数据按月和年绘制为条形图以月为 x 轴以年为迹线问题是数据从 2018 年 9 月开始因此要绘制的第一个月是 9 月但我希望是 1 月我尝试过这样做但年份却按递减顺序排列这也是
继承和 REST API 控制器 - 处理子类

我正在开发以下优惠券和交易平台的类层次结构 Promotion abstract Coupon Sale Deal Coupon Sale and Deal继承自促销促销有一个名为的字符串属性type以及一个将子类的类型属性初始化为字符串
当使用 svn cp 或 svn mv 时，如何使 svn diff 生成补丁将应用的文件？

场景是 svn cp 或 mv 某些文件修改该文件 svn diff gt 我的补丁在其他机器上相同的工作副本但没有更改尝试应用我的补丁失败 gt 尝试修改不存在的文件在这种情况下如何使 svn diff 生成适用于补丁的补
如何在 Linux 中使用 POSIX 方法从文件中读取 Unicode-16 字符串？

我有一个包含 UNICODE 16 字符串的文件我想将其读入 Linux 程序这些字符串是根据 Windows 内部 WCHAR 格式编写的 Windows 总是使用 UTF 16 吗例如在日语版本中我相信我可以使用原始读取来读取它

如何在 Linux 中使用 POSIX 方法从文件中读取 Unicode-16 字符串？

如何在 Linux 中使用 POSIX 方法从文件中读取 Unicode-16 字符串？ 的相关文章

随机推荐

热门标签

如何在 Linux 中使用 POSIX 方法从文件中读取 Unicode-16 字符串？的相关文章