C语言实现GB2312和UTF8之间的编码转换

2023-11-04

C语言实现GB2312和UTF8之间的编码转换

GB2312

GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换，基本集共收入汉字6763个和非汉字图形字符682个。GB2312中对所收汉字进行了“分区”处理，字符集分成94个区，每区含有94个汉字/符号，这种表示方式也称为区位码。
01-09区为特殊符号。
16-55区为一级汉字，按拼音排序。
56-87区为二级汉字，按部首/笔画排序。
10-15区及88-94区则未有编码。
举例来说，“啊”字是GB2312之中的第一个汉字，它的区位码就是1601。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”（也称“区字节）”，第二个字节称为“低位字节”（也称“位字节”）。

UTF-8

UTF-8（8位元，Universal Character Set/Unicode Transformation Format）是针对Unicode的一种可变长度字符编码。UTF-8使用1~4字节为每个字符编码：
1）一个US-ASCIl字符只需1字节编码（Unicode范围由U+0000~U+007F）。
2）带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码（Unicode范围由U+0080~U+07FF）。
3）其他语言的字符（包括中日韩文字、东南亚文字、中东文字等）包含了大部分常用字，使用3字节编码。
4）其他极少使用的语言字符使用4字节编码。

由此可知，对于中文，GB2312编码占用2个字节，UTF-8编码占用3个字节。

linux下编码工具

命令行工具

iconv -f encoding -t encoding inputfile

有如下选项可用:

输入/输出格式规范：
-f, --from-code=名称 原始文本编码
-t, --to-code=名称 输出编码

信息：
-l, --list 列举所有已知的字符集

输出控制：
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息

示例：下面的命令是将一个utf8编码的文件转换为一个unicode编码的文件

iconv -f utf-8 -t gb2312 utf8file.txt  -o gb2312file.txt

C语言调用iconv库
下载libiconv库
根据个人开发板，交叉编译出动态库。
Ubuntu下好像可以直接包含头文件使用。

#include <iconv.h>

三个主要函数：

iconv_t iconv_open(const char *tocode, const char *fromcode);

此函数说明将要进行哪两种编码的转换，tocode是目标编码,fromcode是原编码，该函数返回一个转换句柄,供以下两个函数使用。

size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);

此函数从inbuf中读取字符，转换后输出到outbuf中，inbytesleft用以记录还未转换的字符数，outbytesleft用以记录输出缓冲的剩余空间。

注意：inbuf和outbuf都必须是有存储空间的不能定义为常量，如：char *inbuf = “abc” 或者是char *outbuf = "123"这样定义都是错误的。另外inbuf，inbytesleft，outbuf，outbytesleft这几个参数在使用过程中都会改变，最好是先保存一下原值，然后再使用。

int iconv_close(iconv_t cd);

此函数用于关闭转换句柄,释放资源。

代码示例：

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include "iconv.h"

//iInLen的长度不包括\0，应该用strlen。返回值是处理后的sOut长度
static int Utf8ToGb2312(char *sOut, int iMaxOutLen, const char *sIn, int iInLen)
{
    char *pIn = (char *)sIn;
    char *pOut = sOut;
    size_t ret;
    size_t iLeftLen=iMaxOutLen;
    iconv_t cd;

    cd = iconv_open("gb2312", "utf-8");

    if (cd == (iconv_t) - 1)
    {
        return -1;
    }
	
    size_t iSrcLen=iInLen;
    ret = iconv(cd, &pIn,&iSrcLen, &pOut,&iLeftLen);
	
    if (ret == (size_t) - 1)
    {
        iconv_close(cd);
        return -1;
    }

    iconv_close(cd);

    return (iMaxOutLen - iLeftLen);
}

//iInLen的长度不包括\0，应该用strlen。返回值是处理后的sOut长度
static int Gb2312ToUtf8(char *sOut, int iMaxOutLen, const char *sIn, int iInLen)
{
    char *pIn = (char *)sIn;
    char *pOut = sOut;
    size_t ret;
    size_t iLeftLen=iMaxOutLen;
    iconv_t cd;


    cd = iconv_open("utf-8", "gb2312");
	
    if (cd == (iconv_t) - 1)
    {
        return -1;
    }
    size_t iSrcLen=iInLen;
	
    ret = iconv(cd, &pIn,&iSrcLen, &pOut,&iLeftLen);
    if (ret == (size_t) - 1)
    {
        iconv_close(cd);
        return -1;
    }

    iconv_close(cd);

    return (iMaxOutLen - iLeftLen);
}

int main()
{
	int nRtn = 0;
	char* pszOri = "这是一个中文测试例程";

	printf("byStr[%d]: %s\n", strlen(pszOri), pszOri);
    
    char pszDst[50] = {0};
    
    int iLen = Utf8ToGb2312(pszDst, 50, pszOri, strlen(pszOri)); // Utf8ToGb2312

	printf("iLen: %d    %s\n", iLen, pszDst);

	printf("-----------\n");
    
    char pszGbDst[50] = {0};  
    int iNewLen = Gb2312ToUtf8(pszGbDst, 50, pszDst, iLen); // Gb2312ToUtf8  

	printf("iNewLen: %d    %s\n", iNewLen, pszGbDst);

	return nRtn;
}

以上代码在Linux下编译，记得加上-liconv，代码先将UTF-8转换为GB2312，再从GB2312转为UTF-8，在SecureCRT下，按照GB2312编码方式显示，可以看到iLen后面的中文打印，按照UTF-8编码方式打印，可以看到byStr以及iNewLen后面的中文打印。

参考：Linux下 GB2312和UTF8转换接口

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

C语言实现GB2312和UTF8之间的编码转换的相关文章

Android 时钟滴答数 [赫兹]

关于 proc pid stat 中应用程序的总 CPU 使用率 https stackoverflow com questions 16726779 total cpu usage of an application from proc
如何在数组中存储包含双引号的命令参数？

我有一个 Bash 脚本它生成存储和修改数组中的值这些值稍后用作命令的参数对于 MCVE 我想到了任意命令bash c echo 0 0 echo 1 1 这解释了我的问题我将用两个参数调用我的命令 option1 without
所有平台上的java

如果您想用 java 为 Windows Mac 和 Linux 编写桌面应用程序那么所有这些代码都相同吗您只需更改 GUI 即可使 Windows 应用程序更像 Windows 等等如果不深入细节它是如何工作的 Java 的卖点之
添加要在给定命令中运行的 .env 变量

我有一个 env 文件其中包含如下变量 HELLO world SOMETHING nothing 前几天我发现了这个很棒的脚本它将这些变量放入当前会话中所以当我运行这样的东西时 cat env grep v xargs node t
尝试安装 LESS 时出现“请尝试以 root/管理员身份再次运行此命令”错误

我正在尝试在我的计算机上安装 LESS 并且已经安装了节点但是当我输入 node install g less 时出现以下错误并且不知道该怎么办 FPaulMAC bin paul npm install g less npm ER
Discord.net 无法在 Linux 上运行

我正在尝试让在 Linux VPS 上运行的 Discord net 中编码的不和谐机器人我通过单声道运行但我不断收到此错误 Unhandled Exception System Exception Connection lost at
两种情况或 if 哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我必须制作一个非常轻的脚本它将接受用户的选项并调用脚本中的函数来执行一些任务现在我可以使用 IF 和 CASE 选项但我想知道两
Pyaudio 安装错误 - “命令‘gcc’失败，退出状态 1”

我正在运行 Ubuntu 11 04 Python 2 7 1 并想安装 Pyaudio 于是我跑了 sudo easy install pyaudio 在终端中进程退出并显示以下错误消息 Searching for pyaudio Re
将 PDF 转换为 600dpi 的 TIFF 和 jpg 96 dpi

我想使用 ImageMagick 从 Python 脚本将 pdf 转换为 600 dpi 的 tiff 和 96 dpi 的 jpg 我使用 imagemagick 命令行完成了这项任务但我想使用python中的Imagemagick将
NPTL 和 POSIX 线程有什么区别？

NPTL 和 POSIX 线程之间的基本区别是什么这两者是如何演变的 POSIX 线程 pthread 不是一个实现它是几个函数的 API 规范纸上的标准英文其名称以pthread 以及定义在
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
Linux 中什么处理 ping？

我想覆盖更改 linux 处理 ping icmp echo 请求数据包的方式这意味着我想运行自己的服务器来回复传入的 icmp 回显请求或其他数据包但为了使其正常工作我想我需要禁用 Linux 的默认 ping icmp 数据包
将 jar 作为 Linux 服务运行 - init.d 脚本在启动应用程序时卡住

我目前正在致力于在 Linux VM 上实现一个可运行的 jar 作为后台服务我已经使用了找到的例子here https gist github com shirish4you 5089019作为工作的基础并将 start 方法修改为
在我的 index.php 中加载 CSS 和 JS 等资源时出现错误 403

我使用的是 Linux Elementary OS 并在 opt 中安装了 lampp My CSS and JS won t load When I inspect my page through browser The console
多处理：仅使用物理核心？

我有一个函数foo它消耗大量内存我想并行运行多个实例假设我有一个有 4 个物理核心的 CPU 每个核心有两个逻辑核心我的系统有足够的内存来容纳 4 个实例foo并行但不是 8 个此外由于这 8 个核心中的 4 个是逻辑核心我也不
查找哪些页面不再与写入时复制共享

假设我在 Linux 中有一个进程我从中fork 另一个相同的过程后forking 因为原始进程将开始写入内存 Linux写时复制机制将为进程提供与分叉进程使用的不同的唯一物理内存页在执行的某个时刻我如何知道原始进程的哪些页面已被写
查找哪个程序运行另一个程序

我有一个 NAS 运行在 Redhat Linux 的有限版本上我按照指示破解了它这样我就可以访问 shell 这很有帮助我还做了一些修改其他人也做过修改除了一个问题之外它们似乎都工作得很好不知何故每隔 22 天系统就会关
Gtk-ERROR **：检测到 GTK+ 2.x 符号

我正在使用 gcc 编译我的 c 应用程序并使用以下标志 gcc evis c pkg config cflags libs gtk 2 0 libs clutter gtk 1 0 libs gthread 2 0 Wall o evi
使用 Grep 查找两个短语之间的文本块（包括短语）

是否可以使用 grep 来高亮所有以以下内容开头的文本 mutablePath CGPathCreateMutable 并以以下内容结尾 CGPathAddPath skinMutablePath NULL mutablePath 这两个短
确定我可以向文件句柄写入多少内容；将数据从一个 FH 复制到另一个 FH

如何确定是否可以将给定数量的字节写入文件句柄实际上是套接字或者如何取消读取我从其他文件句柄读取的数据我想要类似的东西 n how much can I write w handle n read r handle buf n a

随机推荐

STM32的捕获

基础配置 void TIM2 Capture Init u16 arr u16 psc GPIO InitTypeDef GPIO InitStructure TIM TimeBaseInitTypeDef TIM TimeBaseStru
创建&删除Anaconda虚拟环境

一创建Anaconda虚拟环境参考博主之前的blog https blog csdn net m0 51339444 article details 123715285 二删除Anaconda虚拟环境删除Anaconda虚拟环境不建
解决Mybatis报错并分析原因:Invalid bound statement (not found): com.xxx.mapper.xxx

前言今天同事在Mapper xml自定义写了一个SQL 但是调用mapper的时候缺报错我大概还原下场景 org apache ibatis binding BindingException Invalid bound statemen
windows跨服务器复制文件夹,windows server 2012 DFS 复制服务已停止已复制文件夹DATA上的复制。...

我账户发不了图片事件id 14554 系统日志 DFS 命名空间服务已成功初始化承载命名空间根目录的共享文件夹共享文件夹为 SHOW 事件Id 7036 系统日志 WinHTTP Web Proxy Auto Discovery Ser
springboot之整合jackson

springboot默认配置json转换工具就是jackson 本文介绍自定义各种配置的方法废话不多说直接上代码配置文件 jackson 日期格式化 spring jackson date format yyyy MM dd HH m
TVM: Deep Learning模型的优化编译器(强烈推荐, 附踩坑记录)

本文作者是阿莱克西斯原载于知乎雷锋网公众号雷锋网获得授权转载前排提醒本文的人文内容部分稍稍带有艺术加工请保持一定的幽默感进行阅读关注我最近想法的同学应该知道我最近都在把玩 TVM 今天终于使用 TVM 得到了非常满意的结果
C++考试基础知识复习3——tyut考试版

本期带领大家复习C 函数与指针部分的知识非常重要具体内容见代码注释 include
kernel-power错误导致计算机系统崩溃,自动重启,教你快速解决win10系统出现无规律蓝屏重启Kernel-Power41错误问题...

电脑在使用过程中避免不了会遇到一些问题比如常见的蓝屏故障近日有用户升级win10系统后在使用过程中经常会程序爱你无规律蓝屏重启并提示Kernel Power41错误经过分析可能是硬件引起今天小编就教你快速解决win10系统出现
DER、CRT、CER、PEM格式的证书及转换

DER CRT CER PEM格式的证书及转换一证书和编码 X 509证书其核心是根据RFC 5280编码或数字签名的数字文档实际上术语X 509证书通常指的是IETF的PKIX证书和X 509 v3证书标准的CRL 文件即如R
2字节16进制转化为1字节10进制

res USART2 BT BUF 4 lt lt 8 USART2 BT BUF 3 USART2 BT BUF 3 为高八位 USART2 BT BUF 4 为底八位
Springboot 使用MinIO (附源码 demo）

一 MinIO是什么 MinIO 是在 GNU Affero 通用公共许可证 v3 0 下发布的高性能对象存储它与 Amazon S3 云存储服务 API 兼容使用 MinIO 为机器学习分析和应用程序数据工作负载构建高性能基础架构
yii2 html编辑器,Yii2学习笔记十八：Ueditor百度编辑器（转载）

安装方法 1 下载扩展下载 2 将下载的yii2 ueditor master 修改 ueditor 注意修改成其他文件名请修改插件内对应的命名空间 3 将文件方在根目录 common widgets 下即可调用方法在rootPat
物联网LoRa系列-16：LoRa终端Sx1262芯片外部的射频前端电路设计

前言在全面拆解和构建5G物联网 15 图解详解无线终端的天线对无线电磁波的发送与接收中我们详细阐述了LoRa终端的天线本身是如何发送和接收高频无线电磁波信号的本文将借助和结合LoRa射频芯片Sx1262的射频前端电路设计进一步
数据进制的转换

其他进制转换为十进制通过按权展开法转换十进制转换为其他进制通过短除法转换注意计算结果是倒着的例如将十进制的94转换为二进制二进制转八进制和十六进制 3位二进制数表示1位八进制数 4位二进制数表示1位十六进制数同理八进制数和十六
SystemMiner挖矿病毒处理记录

病毒相关信息示例病毒家族 SystemdMiner 病毒痕迹内网大量爆破22端访问矿池 CPU占用100 1 3 矿池信息 99 90 243 136 1 4 挖矿进程挖矿主进程为随机的8位数字与字母的组合示例如下所示该进程由
用循环语句while或for循环编写一个验证登陆的小程序

要求当用户名与密码全部正确时提示登陆成功否则提示登陆失败三次验证失败退出系统 while循环代码如下 import java util Scanner author Administrator public class Text6
Springboot中使用ModelMapper对outputdto转entity的坑

今天在使用ModelMapper对outputdto转entity的时候发现转出来的entity是null的在用inputdto转entity的时候没出现过这样的问题呢对比了下inputdto和outputdto并没有什么不一样可以说
常用的ASCII码值

常用的ASCII码值 1 什么是ASCII码 ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符标准ASCII 码也叫基础ASCII码使用7 位二进制数剩下的1位二进制为0 来表示所有的大写和小写字
目标检测小白入门（一）——背景、指标、数据集

一背景介绍计算机视觉领域有四大主要任务分别是图像分类目标检测目标跟踪图像分割图像分类的目标是将给定的图像进行分类给图片或视频分配一个类别标签比如图像中大部分都是气球还有其他物体要给这个图片或者视频提供气球的标签目标检
C语言实现GB2312和UTF8之间的编码转换

C语言实现GB2312和UTF8之间的编码转换 GB2312 GB2312编码适用于汉字处理汉字通信等系统之间的信息交换基本集共收入汉字6763个和非汉字图形字符682个 GB2312中对所收汉字进行了分区处理字符集分成94个区

C语言实现GB2312和UTF8之间的编码转换

C语言实现GB2312和UTF8之间的编码转换

C语言实现GB2312和UTF8之间的编码转换 的相关文章

随机推荐

热门标签

C语言实现GB2312和UTF8之间的编码转换的相关文章