如何从 C stdio.h getline() 替换/忽略无效的 Unicode/UTF8 字符？

2023-12-07

在Python上，有这个选项errors='ignore'为了openPython函数：

open( '/filepath.txt', 'r', encoding='UTF-8', errors='ignore' )

这样，读取包含无效 UTF8 字符的文件时，它们将被替换为空，即它们被忽略。例如，包含字符的文件FÃ¸Ã¶»BÃ¥r将被读作FøöBår.

如果一行作为FÃ¸Ã¶»BÃ¥r是用getline() from stdio.h，它将被读作Føö�Bår:

FILE* cfilestream = fopen( "/filepath.txt", "r" );
int linebuffersize = 131072;
char* readline = (char*) malloc( linebuffersize );

while( true )
{
    if( getline( &readline, &linebuffersize, cfilestream ) != -1 ) {
        std::cerr << "readline=" readline << std::endl;
    }
    else {
        break;
    }
}

我怎样才能使stdio.h getline()将其读作FøöBår代替Føö�Bår，即忽略无效的 UTF8 字符？

我能想到的一个压倒性的解决方案是迭代每行上的所有字符读取并构建一个新的readline没有任何这些字符。例如：

FILE* cfilestream = fopen( "/filepath.txt", "r" );
int linebuffersize = 131072;
char* readline = (char*) malloc( linebuffersize );
char* fixedreadline = (char*) malloc( linebuffersize );

int index;
int charsread;
int invalidcharsoffset;

while( true )
{
    if( ( charsread = getline( &readline, &linebuffersize, cfilestream ) ) != -1 )
    {
        invalidcharsoffset = 0;
        for( index = 0; index < charsread; ++index )
        {
            if( readline[index] != '�' ) {
                fixedreadline[index-invalidcharsoffset] = readline[index];
            } 
            else {
                ++invalidcharsoffset;
            }
        }
        std::cerr << "fixedreadline=" << fixedreadline << std::endl;
    }
    else {
        break;
    }
}

相关问题：

修复无效的 UTF8 字符
替换非 UTF8 字符
python 替换unicode字符
Python unicode：如何用空格替换无法使用utf8解码的字符？

你混淆了你所看到的和真实发生的事情。这getline函数不做任何字符替换。 [注1]

您看到替换字符 (U+FFFD) 是因为您的控制台在要求呈现无效的 UTF-8 代码时输出该字符。大多数控制台在 UTF-8 模式下都会这样做；也就是说，当前的语言环境是 UTF-8。

另外，说文件包含“字符FÃ¸Ã¶»BÃ¥r“充其量是不精确的。文件并不真正包含字符。它包含可以解释为字符的字节序列 - 例如，通过控制台或其他用户演示软件将它们呈现为字形 - 根据某种编码。不同不同的编码会产生不同的结果；在这种特殊情况下，您有一个由软件使用 Windows-1252 编码（或者大致相当于 ISO 8859-15）创建的文件，并且您使用 UTF-8 在控制台上渲染它。

这意味着 getline 读取的数据包含无效的 UTF-8 序列，但它（可能）不包含替换字符代码。根据您提供的字符串，它包含十六进制字符\xbb，这是海鸠（»）在 Windows 代码页 1252 中。

查找读取的字符串中所有无效的 UTF-8 序列getline（或任何其他读取文件的 C 库函数）需要扫描字符串，但不需要扫描特定的代码序列。相反，您需要一次解码一个 UTF-8 序列，查找无效的序列。这不是一个简单的任务，但是mbtowc函数可以提供帮助（如果您启用了 UTF-8 语言环境）。正如您将在链接的联机帮助页中看到的，mbtowc返回有效“多字节序列”（UTF-8 语言环境中的 UTF-8）中包含的字节数，或 -1 表示无效或不完整的序列。在扫描中，您应该以有效序列传递字节，或者删除/忽略开始无效序列的单个字节，然后继续扫描直到到达字符串末尾。

下面是一些经过简单测试的示例代码（C 语言）：

#include <stdlib.h>
#include <string.h>

/* Removes in place any invalid UTF-8 sequences from at most 'len' characters of the
 * string pointed to by 's'. (If a NUL byte is encountered, conversion stops.)
 * If the length of the converted string is less than 'len', a NUL byte is
 * inserted.
 * Returns the length of the possibly modified string (with a maximum of 'len'),
 * not including the NUL terminator (if any).
 * Requires that a UTF-8 locale be active; since there is no way to test for
 * this condition, no attempt is made to do so. If the current locale is not UTF-8,
 * behaviour is undefined.
 */
size_t remove_bad_utf8(char* s, size_t len) {
  char* in = s;
  /* Skip over the initial correct sequence. Avoid relying on mbtowc returning
   * zero if n is 0, since Posix is not clear whether mbtowc returns 0 or -1.
   */
  int seqlen;
  while (len && (seqlen = mbtowc(NULL, in, len)) > 0) { len -= seqlen; in += seqlen; }
  char* out = in;

  if (len && seqlen < 0) {
    ++in;
    --len;
    /* If we find an invalid sequence, we need to start shifting correct sequences.  */
    for (; len; in += seqlen, len -= seqlen) {
      seqlen = mbtowc(NULL, in, len);
      if (seqlen > 0) {
        /* Shift the valid sequence (if one was found) */
        memmove(out, in, seqlen);
        out += seqlen;
      }
      else if (seqlen < 0) seqlen = 1;
      else /* (seqlen == 0) */ break;
    }
    *out++ = 0;
  }
  return out - s;
}

Notes

除了底层 I/O 库可能的行尾转换之外，这将用单个替换 CR-LF\n在像 Windows 这样的系统上，两个字符 CR-LF 序列用作行结束指示。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 C stdio.h getline() 替换/忽略无效的 Unicode/UTF8 字符？的相关文章

检查两个数是否是彼此的排列？

给定两个数字 a b 使得 1 例如 123 是 312 的有效排列我也不想对数字中的数字进行排序如果您指的是数字的字符例如 1927 和 9721 则至少有几种方法如果允许排序一种方法是简单地sprintf将它们放入两个缓冲
如何检查图像对象与资源中的图像对象是否相同？

所以我试图创建一个简单的程序只需在单击图片框中更改图片即可我目前只使用两张图片所以我的图片框单击事件函数的代码看起来像这样 private void pictureBox1 Click object sender EventArgs
如何使用GDB修改内存内容？

我知道我们可以使用几个命令来访问和读取内存例如 print p x 但是如何更改任何特定位置的内存内容在 GDB 中调试时最简单的是设置程序变量参见GDB 分配 http sourceware org gdb current onl
如何在列表框项目之间画一条线

我希望能够用水平线分隔列表框中的每个项目这只是我用于绘制项目的一些代码 private void symptomsList DrawItem object sender System Windows Forms DrawItemEvent
如何忽略“有符号和无符号整数表达式之间的比较”？

谁能告诉我必须使用哪个标志才能使 gcc 忽略有符号和无符号整数表达式之间的比较警告消息 gcc Wno sign compare 但你确实应该修复它警告你的比较
Newtonsoft JSON PreserveReferences处理自定义等于用法

我目前在使用 Newtonsoft Json 时遇到一些问题我想要的很简单将要序列化的对象与所有属性和子属性进行比较以确保相等我现在尝试创建自己的 EqualityComparer 但它仅与父对象的属性进行比较另外我尝试编写自己的
指针问题（仅在发布版本中）

不确定如何描述这一点但我在这里由于某种原因当尝试创建我的游戏的发布版本进行测试时它的敌人创建方面不起作用 Enemies e level1 3 e level1 0 Enemies sdlLib 500 2 3 128 250 32
在 Visual Studio 2008 上设置预调试事件

我想在 Visual Studio 中开始调试程序之前运行一个任务我每次调试程序时都需要运行此任务因此构建后事件还不够好我查看了设置的调试选项卡但没有这样的选项有什么办法可以做到这一点吗你唯一可以尝试的 IMO 就是尝试Co
C - 找到极限之间的所有友好数字

首先是定义一对友好的数字由两个不同的整数组成其中第一个整数的除数之和等于第二个整数并且第二个整数的除数之和等于第一个整数完美数是等于其自身约数之和的数我想做的是制作一个程序询问用户一个下限和一个上限然后向他她提供这两个限
Web API - 访问 DbContext 类中的 HttpContext

在我的 C Web API 应用程序中我添加了CreatedDate and CreatedBy所有表中的列现在每当在任何表中添加新记录时我想填充这些列为此目的我已经覆盖SaveChanges and SaveChangesAsy
vector 超出范围后不清除内存

我遇到了以下问题我不确定我是否错了或者它是一个非常奇怪的错误我填充了一个巨大的字符串数组并希望在某个点将其清除这是一个最小的例子 include
Github Action 在运行可执行文件时卡住

我正在尝试设置运行google tests on a C repository using Github Actions正在运行的Windows Latest 构建过程完成但是当运行测试时它被卡住并且不执行从生成的可执行文件Visual
如何衡量两个字符串之间的相似度？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案给定两个字符串text1 and text2 public SOMEUSABLERETURNTYPE Compare string t
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
将 xml 反序列化为类，list<> 出现问题

我有以下 XML
C++ 复制初始化和直接初始化，奇怪的情况

在继续阅读本文之前请阅读在 C 中复制初始化和直接初始化之间有区别吗 https stackoverflow com questions 1051379 is there a difference in c between copy i
如何让Gtk+窗口背景透明？

我想让 Gtk 窗口的背景透明以便只有窗口中的小部件可见我找到了一些教程 http mikehearn wordpress com 2006 03 26 gtk windows with alpha channels https web
在 Dynamics CRM 插件中访问电子邮件发件人地址

我正在编写一个 Dynamics CRM 2011 插件该插件挂钩到电子邮件实体的更新后事件阶段 40 pipeline http msdn microsoft com en us library gg327941 aspx 并且在此阶
ASP.NET MVC 6 (ASP.NET 5) 中的 Application_PreSendRequestHeaders 和 Application_BeginRequest

如何在 ASP NET 5 MVC6 中使用这些方法在 MVC5 中我在 Global asax 中使用了它现在呢也许是入门班 protected void Application PreSendRequestHeaders obj
使用 libcurl 检查 SFTP 站点上是否存在文件

我使用 C 和 libcurl 进行 SFTP FTPS 传输在上传文件之前我需要检查文件是否存在而不实际下载它如果该文件不存在我会遇到以下问题 set up curlhandle for the public private ke

随机推荐

为什么循环顺序会影响二维数组迭代时的性能？

下面是两个几乎相同的程序除了我切换了i and j周围的变数它们运行的时间不同有人可以解释为什么会发生这种情况吗版本1 include
python/tkinter 绘图程序撤消函数

我尝试在我的绘画程序中添加一个撤消功能该功能从画布中删除对象创建的每个对象都附加到堆栈中我尝试了它它可以工作但屏幕不会仅在第一个撤消时更新因此如果我绘制 3 条线然后我撤消什么也不会发生当我一次又一次撤消时第二行和第三行将被
在 ImageView 上的 OnTouch 中返回 false，但事件仍然被消耗

我在用ImageView onTouch 我返回 falseACTION MOVE但仍然是onTouch 事件被消耗 imageView setOnTouchListener new View OnTouchListener Overrid
交换字符串中的大小写[重复]

这个问题在这里已经有答案了我正在尝试解决Hackerrank 中的这项挑战它要求将所有小写字母转换为大写字母反之亦然我尝试使用以下代码 def swap case s length len s i 0 while length if
从 R 闪亮的 selectInput 中过滤

我试图让用户上传 csv 文件然后获取该 csv 文件的一列因子并创建用户输入以确定将为数据框选择该字段中的哪个唯一名称因此如果我有以下示例 data frame COURSE VALUE 1 A 7 2 C 2 3 C 2 4
在 SSIS 中动态更改服务器名称

我的 SSIS 包在开发周期开发 QA 暂存和生产期间会经历多个环境因此我想使用 SSIS 中的配置来设置连接管理器中的服务器名称这样我就不会不需要手动完成此操作我读过有关使用 xml 配置文件 SQL 配置表和环境变量的内容然
谷歌地图：未捕获的类型错误：类型错误

在几个页面上我开始收到上述错误但仅在 Chrome 中这是一些简单的代码来演示该错误
使用 boost::dynamic_bitset 作为键值对序列化 boost::bimap

我有兴趣序列化boost bimap含有boost dynamic bitset这样我就可以保存它并在需要时加载回来我已经尝试这样做但遇到了很多错误我随身携带的代码如下 Example program include
python 中的布尔值是可变的吗？

我在 python 中有以下代码 def update request id success 0 try product Mattress objects get id id success 1 except Mattress DoesNo
C# 内存地址和变量

在C 中有没有办法获取存储在a中的内存地址引用类型变量获取a的内存地址多变的 EDIT int i int pi i 如何打印 pi 的十六进制值对于 2 运算符的工作方式与 C 中相同如果变量不在堆栈上您可能需要使用fix
从“SecKeychainFindGenericPassword”给出的“SecKeychainItemRef”中提取“用户名”？

从这个问题我知道你可以使用SecKeychainFindGenericPassword without用户名值它仍然会返回给定服务的钥匙串项但是我如何获取用户名呢仅使用服务名称获取存储在钥匙串中的用户名或者您应该在哪里存储用户名
是否可以将网页内容读入字符串中，以便我可以解析数据？

我希望能够让我的 iPhone 将 URL 或者实际上是 url 指向的文件加载到字符串中我希望能够执行此操作的原因是这样我就可以解析字符串以查找标签并从中提取一些值这些文件主要是网页例如 html 或 asp 等有人能给我一些提
导出并发布 Typescript 中的所有类型和接口

我正在尝试发布一个打字稿库我不清楚如何公开所有类型和接口这是我的设置 mylib src types mytypes ts index ts package json tsconfig json index ts import MyIn
Firefox - 删除未修饰复选框的边框

我有一个复选框appearance none 这在 Chrome 中有效但在 Firefox 中它留下了一个我无法删除的插入边框我努力了border none已经我这里有一个小提琴 http jsfiddle net jcJJ5 不幸
根据 HTML 文本匹配产品价格

我正在尝试在字符串上使用简单的正则表达式来获取定价信息但是我的preg match all根本就是没有找到它应该找到的东西我正在寻找例如 or 或者有时货币符号可能被编码为 HTML 实体例如对于英镑 pound or 163 使用有
Django：在模型 save() 方法中返回序列化器 ValidationError

我使用 django rest framework 在 Django 框架内创建 Rest API 并且可以返回任何validationError除了序列化器方法之外但是我想知道是否有可能返回错误save Django的方法model被
将函数更改为 PDO

这是我的api中使用的语句这是第二个 result下面整个函数中的变量如何将其更改为使用 PDO result query SELECT p IdPhoto p device token title p IdUser FROM phot
如何在nodejs中向mysql查询回调传递参数

我试图找出将自定义数据传递到查询调用以在回调中可用的正确方法我在nodejs 中使用MySQL 库所有最新版本我调用了 connection query sql function err result 我找不到一种方法来 1 将自定义
在父元素内将对象序列化为 XML

我有一个 WPF C 程序有时我需要将对象序列化为 XML 在其他地方我一直在使用这个 TextWriter writer new StreamWriter xmlFilePath XmlSerializer xmlSerializer
如何从 C stdio.h getline() 替换/忽略无效的 Unicode/UTF8 字符？

在Python上有这个选项errors ignore 为了openPython函数 open filepath txt r encoding UTF 8 errors ignore 这样读取包含无效 UTF8 字符的文件时它们将被替换

如何从 C stdio.h getline() 替换/忽略无效的 Unicode/UTF8 字符？

Notes

如何从 C stdio.h getline() 替换/忽略无效的 Unicode/UTF8 字符？ 的相关文章

随机推荐

热门标签

如何从 C stdio.h getline() 替换/忽略无效的 Unicode/UTF8 字符？的相关文章