如何轻松检测字符串中的utf8编码？

2024-04-06

我有一个由其他程序的数据填充的字符串，该数据可以使用 UTF8 编码，也可以不使用。因此，如果不是，我可以编码为 UTF8，但是在 C++ 中检测 UTF8 的最佳方法是什么？我看到了这个变体https://stackoverflow.com/questions/... https://stackoverflow.com/questions/1031645/how-to-detect-utf-8-in-plain-c但有评论称该解决方案不能提供 100% 的检测。因此，如果我对已经包含 UTF8 数据的 UTF8 字符串进行编码，那么我会将错误的文本写入数据库。

那么我可以使用这个 UTF8 检测吗：

bool is_utf8(const char * string)
{
    if(!string)
        return 0;

    const unsigned char * bytes = (const unsigned char *)string;
    while(*bytes)
    {
        if( (// ASCII
             // use bytes[0] <= 0x7F to allow ASCII control characters
                bytes[0] == 0x09 ||
                bytes[0] == 0x0A ||
                bytes[0] == 0x0D ||
                (0x20 <= bytes[0] && bytes[0] <= 0x7E)
            )
        ) {
            bytes += 1;
            continue;
        }

        if( (// non-overlong 2-byte
                (0xC2 <= bytes[0] && bytes[0] <= 0xDF) &&
                (0x80 <= bytes[1] && bytes[1] <= 0xBF)
            )
        ) {
            bytes += 2;
            continue;
        }

        if( (// excluding overlongs
                bytes[0] == 0xE0 &&
                (0xA0 <= bytes[1] && bytes[1] <= 0xBF) &&
                (0x80 <= bytes[2] && bytes[2] <= 0xBF)
            ) ||
            (// straight 3-byte
                ((0xE1 <= bytes[0] && bytes[0] <= 0xEC) ||
                    bytes[0] == 0xEE ||
                    bytes[0] == 0xEF) &&
                (0x80 <= bytes[1] && bytes[1] <= 0xBF) &&
                (0x80 <= bytes[2] && bytes[2] <= 0xBF)
            ) ||
            (// excluding surrogates
                bytes[0] == 0xED &&
                (0x80 <= bytes[1] && bytes[1] <= 0x9F) &&
                (0x80 <= bytes[2] && bytes[2] <= 0xBF)
            )
        ) {
            bytes += 3;
            continue;
        }

        if( (// planes 1-3
                bytes[0] == 0xF0 &&
                (0x90 <= bytes[1] && bytes[1] <= 0xBF) &&
                (0x80 <= bytes[2] && bytes[2] <= 0xBF) &&
                (0x80 <= bytes[3] && bytes[3] <= 0xBF)
            ) ||
            (// planes 4-15
                (0xF1 <= bytes[0] && bytes[0] <= 0xF3) &&
                (0x80 <= bytes[1] && bytes[1] <= 0xBF) &&
                (0x80 <= bytes[2] && bytes[2] <= 0xBF) &&
                (0x80 <= bytes[3] && bytes[3] <= 0xBF)
            ) ||
            (// plane 16
                bytes[0] == 0xF4 &&
                (0x80 <= bytes[1] && bytes[1] <= 0x8F) &&
                (0x80 <= bytes[2] && bytes[2] <= 0xBF) &&
                (0x80 <= bytes[3] && bytes[3] <= 0xBF)
            )
        ) {
            bytes += 4;
            continue;
        }

        return 0;
    }

    return 1;
}

如果检测不正确，则此代码用于编码为 UTF8：

     string text;
     if(!is_utf8(EscReason.c_str()))
     {
        int size = MultiByteToWideChar(CP_ACP, MB_COMPOSITE, text.c_str(),
            text.length(), 0, 0);
        std::wstring utf16_str(size, '\0');

        MultiByteToWideChar(CP_ACP, MB_COMPOSITE, text.c_str(),
            text.length(), &utf16_str[0], size);
    
        int utf8_size = WideCharToMultiByte(CP_UTF8, 0, utf16_str.c_str(),
            utf16_str.length(), 0, 0, 0, 0);

        std::string utf8_str(utf8_size, '\0');
        WideCharToMultiByte(CP_UTF8, 0, utf16_str.c_str(),
            utf16_str.length(), &utf8_str[0], utf8_size, 0, 0);

        text = utf8_str;
     }

或者上面的代码没有正确完成？我也在 Windows 7 中执行此操作。Ubuntu 怎么样？这个变体在那里工作吗？

比较整个字节值不是检测 UTF-8 的正确方法。您必须分析每个字节的实际位模式。 UTF-8 使用一种非常独特的位模式，其他编码都没有使用这种模式。尝试更像这样的事情：

bool is_utf8(const char * string)
{
    if (!string)
        return true;

    const unsigned char * bytes = (const unsigned char *)string;
    int num;

    while (*bytes != 0x00)
    {
        if ((*bytes & 0x80) == 0x00)
        {
            // U+0000 to U+007F 
            num = 1;
        }
        else if ((*bytes & 0xE0) == 0xC0)
        {
            // U+0080 to U+07FF 
            num = 2;
        }
        else if ((*bytes & 0xF0) == 0xE0)
        {
            // U+0800 to U+FFFF 
            num = 3;
        }
        else if ((*bytes & 0xF8) == 0xF0)
        {
            // U+10000 to U+10FFFF 
            num = 4;
        }
        else
            return false;

        bytes += 1;
        for (int i = 1; i < num; ++i)
        {
            if ((*bytes & 0xC0) != 0x80)
                return false;
            bytes += 1;
        }
    }

    return true;
}

现在，这不考虑非法的 UTF-8 序列，例如超长编码、UTF-16 代理和高于 U+10FFFF 的代码点。如果您想确保 UTF-8 有效且正确，则需要类似以下内容：

bool is_valid_utf8(const char * string)
{
    if (!string)
        return true;

    const unsigned char * bytes = (const unsigned char *)string;
    unsigned int cp;
    int num;

    while (*bytes != 0x00)
    {
        if ((*bytes & 0x80) == 0x00)
        {
            // U+0000 to U+007F 
            cp = (*bytes & 0x7F);
            num = 1;
        }
        else if ((*bytes & 0xE0) == 0xC0)
        {
            // U+0080 to U+07FF 
            cp = (*bytes & 0x1F);
            num = 2;
        }
        else if ((*bytes & 0xF0) == 0xE0)
        {
            // U+0800 to U+FFFF 
            cp = (*bytes & 0x0F);
            num = 3;
        }
        else if ((*bytes & 0xF8) == 0xF0)
        {
            // U+10000 to U+10FFFF 
            cp = (*bytes & 0x07);
            num = 4;
        }
        else
            return false;

        bytes += 1;
        for (int i = 1; i < num; ++i)
        {
            if ((*bytes & 0xC0) != 0x80)
                return false;
            cp = (cp << 6) | (*bytes & 0x3F);
            bytes += 1;
        }

        if ((cp > 0x10FFFF) ||
            ((cp >= 0xD800) && (cp <= 0xDFFF)) ||
            ((cp <= 0x007F) && (num != 1)) ||
            ((cp >= 0x0080) && (cp <= 0x07FF) && (num != 2)) ||
            ((cp >= 0x0800) && (cp <= 0xFFFF) && (num != 3)) ||
            ((cp >= 0x10000) && (cp <= 0x1FFFFF) && (num != 4)))
            return false;
    }

    return true;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何轻松检测字符串中的utf8编码？的相关文章

System.IO.IOException：由于意外>数据包格式，握手失败？

有谁知道这意味着什么 System Net WebException 底层连接已关闭发送时发生意外错误 gt System IO IOException 由于意外握手失败数据包格式在 System Net Security SslS
在 C# 中生成 HMAC-SHA1

我正在尝试使用 C 来使用 REST API API 创建者提供了以下用于 hmac 创建的伪代码 var key1 sha1 body var key2 key1 SECRET KEY var key3 sha1 key2 var sig
SSL/TLS/HTTPS 站点在 C#/.NET WebBrowser 控件中非常慢，但在 Internet Explorer 中则很好

背景我正在修改自动维基浏览器 http en wikipedia org wiki Wikipedia AutoWikiBrowser使用托管在安全服务器上的 MediaWiki 站点我允许用户通过 C 应用程序中的 WebBrowse
(const T v) 在 C 中从来都不是必需的，对吗？

例如 void func const int i 在这里 const是不必要的因为所有参数都是按值传递的包括指针真的吗 C 中的所有参数确实都是按值传递这意味着无论您是否包含该参数实际参数都不会改变const or not 然而
CultureInfo 的实例（来自相同的文化）根据操作系统而变化

我有一个网站上面写着这样的日期 CultureInfo cultureInfo CultureInfo GetCultures CultureTypes AllCultures FirstOrDefault c gt string Equ
将字符串转换为正确的 URI 格式？

有没有简单的方法可以将电子邮件地址字符串转换为正确的 URI 格式 Input http mywebsite com validate email 3DE4ED727750215D957F8A1E4B117C38E7250C33 email
带 If 的嵌套 For 循环的时间复杂度

void f int n for int i 1 i lt n i if i int sqrt n 0 for int k 0 k lt pow i 3 k do something 我的思考过程执行if语句的次数 sum i 1 to
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
TcpClient 在异步读取期间断开连接

我有几个关于完成 tcp 连接的问题客户端使用 Tcp 连接到我的服务器在接受客户端后listener BeginAcceptTcpClient ConnectionEstabilishedCallback null 我开始阅读netw
C++ 插件的“最适合”动态类型匹配

我有一个几乎所有东西都是插件的架构该架构以图形用户界面为基础其中每个插件都由一个表面即用户可以通过其与插件交互的 UI 控件表示这些表面也是插件每当添加新插件时瘦主机都会自动确定哪个可用表面与其最匹配的 UI 如何在 C 中
OpenCV 2.4.3 中的阴影去除

我正在使用 OpenCV 2 4 3 最新版本使用内置的视频流检测前景GMG http docs opencv org modules gpu doc video html highlight gmg gpu 3a 3aGMG GPU算法
asp.net网格分页的SQL查询

我在用iBatis and SQLServer 使用偏移量和限制进行分页查询的最佳方法是什么也许我添加该列ROW NUMBER OVER ORDER BY Id AS RowNum 但这只会阻止简单查询的数据访问在某些情况下我使用选择
使用 mingw32 在 Windows 上构建 glew 时“DllMainCRTStartup@12”的多个定义

我关注了这个主题使用 mingw 使建筑物在 Windows 上闪闪发光 https stackoverflow com questions 6005076 building glew on windows with mingw 6005
ASP.NET JQuery AJAX POST 返回数据，但在 401 响应内

我的应用程序中有一个网页需要调用我设置的 Web 服务来返回对象列表这个调用是这样设置的 document ready function var response ajax type POST contentType applicati
初始化 LPCTSTR /LPCWSTR [重复]

这个问题在这里已经有答案了我很难理解并使其正常工作基本上归结为我无法成功初始化这种类型的变量它需要有说的内容7 2E25DC9D 0 USB003 有人可以解释展示这种类型的正确初始化和类似的值吗我已查看此站点上的所有帮助将项目
从 Delphi 调用 C# dll

我用单一方法编写了 Net 3 5 dll 由Delphi exe调用不幸的是它不起作用步骤 1 使用以下代码创建 C 3 5 dll public class MyDllClass public static int MyDllMet
使用 HTMLAgilityPack 从节点的子节点中选择所有

我有以下代码用于获取 html 页面将网址设置为绝对然后将链接设置为 rel nofollow 并在新窗口选项卡中打开我的问题是关于将属性添加到 a s string url http www mysite com string s
C 中带有指针的结构的内存开销[重复]

这个问题在这里已经有答案了我意识到当我的结构包含指针时它们会产生内存开销这里有一个例子 typedef struct int num1 int num2 myStruct1 typedef struct int p int num2
在 C++17 中使用成员的链接错误

我在 Ubuntu 16 04 上使用 gcc 7 2 并且需要使用 C 17 中的新文件系统库尽管确实有一个名为experimental filesystem的库但我无法使用它的任何成员例如当我尝试编译此文件时 include
在 Xamarin 中获取 OutOfMemoryException

java lang OutOfMemoryError 考虑增加 JavaMaximumHeapSize Java 执行时内存不足 java exe 我的 Visualstudio Xamarin 项目出现内存不足异常请帮助我如何解决此问题

随机推荐

使用 PIL 的 Image.fromarray 时出现 KeyError: ((1, 1, 1280), '|u1') - PIL

我有这个代码 from PIL import Image import numpy as np img Image open img jpg Image fromarray np array np mean i axis 1 astype
MVVMCross - 将相同的 ViewModel 绑定到 2 个不同的 View

基本上我的场景如下我有 1 个视图绑定到 ViewModel 并带有一个项目列表项目的类是我的模型中的类每次从此列表视图中的列表中选择一个项目时其字段都会在另一个详细信息视图中编辑这与客户管理示例场景相同其中从列表在
如何使用 pytest 对 python datetime.datetime.now 进行猴子补丁？

我需要测试使用的函数datetime datetime now 做到这一点最简单的方法是什么您需要 Monkeypatch datetime now 函数在下面的示例中我正在创建可以稍后在其他测试中重复使用的夹具 import dat
将 RDS Server SSL 从 1.0 更新到 1.2 后，本地 tomcat 无法启动并且无法连接到 Oracle RDS

本地 tomcat 未启动并且在尝试创建连接到 Oracle DB 的 bean 时失败错误是 java sql SQLRecoverableException IO 错误连接重置我们所做的唯一更改是我们之前在 Pom xml 中
从日期获取 PHP 中的月份名称

我的 php 函数中有一个日期如下所示 2016 05 17 16 41 51 有什么方法可以让我从 PHP 中的这个日期获取月份名称吗使用F在日期参数中您可以获得月份名称 echo date F strtotime 2016 05
为什么 R 不将“CST”识别为有效时区？

这段代码的工作原理 ISOdatetime 2011 4 7 12 0 0 tz EST 这段代码没有 ISOdatetime 2011 4 7 12 0 0 tz CST 我想要中央时区不进行夏令时调整我究竟做错了什么在哪里可以找到
AutoHotKey 键序列，不仅仅是单键热键

I m not stupid really How do you map a key SEQUENCE ie Ctrl Q F in AutoHotKey I ve got Ctrl Q down q I ve even got F f 帮
如何使用 jQuery/Javascript 更改日期格式？

今天我想使用 jQuery Javascript 将日期转换为不同的格式 date 2013 04 01T19 45 11 000Z cool date Y m d strtotime date 我怎样才能在 jQuery Javascri
即使我做了所有事情，Req.body 在快递中还是空的

大家好我搜索了很多相关内容并尝试了所有方法但我仍然在帖子中得到空的身体表单发送的正文正确我只是用 fiddler 进行测试节点 Express 没有得到它这是代码这是我的表格
Xcode 10：找不到此可执行文件的有效配置文件

从昨天开始当我尝试在我的设备上运行应用程序时出现以下错误找不到此可执行文件的有效配置文件这是更新到 Xcode 10 后的情况上周使用 Xcode 9 构建没有出现任何问题我检查了有关该错误的其他讨论但没有一个解决方案有效这
Loop_apply.o：文件无法识别：文件格式无法识别

我正在尝试安装R s plyr包裹这是错误消息 installing source package plyr package plyr successfully unpacked and MD5 sums checked libs cla
Fluent NHibernate 映射可空枚举

我需要在我的类中映射一个可为空的枚举但出现异常 NHibernate PropertyAccessException 无效的转换检查您的映射是否属性类型不匹配 App Model Stock 的 setter gt System Inv
为什么 C# 运算符重载必须是静态的？

为什么 C 要求运算符重载是静态方法而不是成员函数如 C 也许更具体地说这个决定的设计动机是什么埃里克利珀特 Eric Lippert 在一篇文章中对此进行了极其详细的回答博客文章 https ericlippert com 20
使用 ostream 进行 C++ 日志记录

我正在制作一个记录器我想创建一个函数log 以流作为输入例如 log hello lt lt lt lt world lt lt 10 lt lt n 我也希望它是线程安全的我重新定义了 lt lt 运算符所以我可以这样做 log l
为什么Python有格式化函数和格式化方法

The format http docs python org 2 library functions html format内置函数中的函数似乎是str format http docs python org 2 library stdt
PostgreSQL 9.5 - 将 NULL 与 JSON 合并时更新不起作用

My users表包含一个metadata类型列json 现在我想向用户添加新的元数据同时保留现有值所以我正在使用合并 2 个 JSON 对象的运算符 UPDATE users SET metadata metadata jsonb
使用重定向/重写规则获取漂亮的浏览器 URL 时出现问题

目前我使用 htaccess 重定向来发送不错的网址办公室伦敦随便到我的脚本讨厌的网址 db db pl 伦敦办事处无论什么我希望浏览器 url 很好但使用 301 重定向则不然所以我尝试使用 RewriteRule 但
将数据框列中的列表拆分为多列[重复]

这个问题在这里已经有答案了我有一个 Pandas DataFrame 列列表中包含多个列表像这样的东西 df col1 0 1 2 2 3 1 a b 4 5 x y 2 6 7 我想将列表拆分为多列因此输出应该类似于 col1 c
DataFrame.index.levels 在削减数据帧后显示“额外”值

假设我有一个大数据框large行上有一个 MultiIndex 我通过仅选择某些行来缩减此数据框并将结果分配给small 尤其 small行上 MultiIndex 的第 0 级中的不同值少于large 然后我想要一个 MultiIndex
如何轻松检测字符串中的utf8编码？

我有一个由其他程序的数据填充的字符串该数据可以使用 UTF8 编码也可以不使用因此如果不是我可以编码为 UTF8 但是在 C 中检测 UTF8 的最佳方法是什么我看到了这个变体https stackoverflow com qu

如何轻松检测字符串中的utf8编码？

如何轻松检测字符串中的utf8编码？ 的相关文章

随机推荐

热门标签

如何轻松检测字符串中的utf8编码？的相关文章