如何在 Java 中逐步解码大型多字节字符串文件？

2024-03-01

我有一个程序可能需要处理可能包含多字节编码的大文件。我当前执行此操作的代码存在创建内存结构来保存整个文件的问题，如果文件很大，这可能会导致内存不足错误：

Charset charset = Charset.forName( "UTF-8" );
CharsetDecoder decoder = charset.newDecoder();
FileInputStream fis = new FileInputStream( file );
FileChannel fc = fis.getChannel();
int lenFile = (int)fc.size();
MappedByteBuffer bufferFile = fc.map( FileChannel.MapMode.READ_ONLY, 0, lenFile );
CharBuffer cb = decoder.decode( bufferFile );
// process character buffer
fc.close();

问题是，如果我使用较小的缓冲区切碎文件字节内容并将其零碎地馈送到解码器，则缓冲区可能会在多字节序列的中间结束。我该如何应对这个问题？

就像使用一个一样简单Reader.

A CharsetDecoder确实是允许将字节解码为字符的底层机制。简而言之，你可以这样说：

// Extrapolation...
byte stream --> decoding       --> char stream
InputStream --> CharsetDecoder --> Reader

鲜为人知的事实是，JDK 中的大多数（但不是全部......见下文）默认解码器（例如从FileReader例如，或者InputStreamReader只有一个字符集）将有一个政策CodingErrorAction.REPLACE。效果是将输入中的任何无效字节序列替换为Unicode 替换字符 http://www.fileformat.info/info/unicode/char/fffd/index.htm（是的，那个臭名昭著的�）。

现在，如果您担心“坏人”溜进来，您还可以选择以下政策：REPORT。您也可以在读取文件时执行此操作，如下所示；这将产生抛出一个MalformedInputException对于任何格式错误的字节序列：

// This is 2015. File is obsolete.
final Path path = Paths.get(...);
final CharsetDecoder decoder = StandardCharsets.UTF_8.newDecoder()
    .onMalformedInput(CodingErrorAction.REPORT);

try (
    final InputStream in = Files.newInputStream(path);
    final Reader reader = new InputStreamReader(in, decoder);
) {
    // use the reader
}

Java 8 中出现了默认替换操作的一个例外：Files.newBufferedReader(somePath)将始终尝试以 UTF-8 格式读取，默认操作为REPORT.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Java 中逐步解码大型多字节字符串文件？的相关文章

AES 加密 Java/plsql

我需要在Java和plsql DBMS CRYPTO for Oracle 10g 上实现相同的加密解密应用程序两种实现都工作正常但这里的问题是我对相同纯文本的加密得到了不同的输出下面是用于加密解密过程的代码 Java 和 PLS
线程自动利用多个CPU核心？

假设我的应用程序运行 2 个线程例如渲染线程和游戏更新线程如果它在具有多核 CPU 当今典型的移动设备上运行我是否可以期望线程在可能的情况下自动分配给不同的核心我知道底层操作系统内核 Android linux内核决定调度我的
使用 ANTLR 为 java 源代码生成抽象语法树

如何使用 ANTLR 从 java src 代码生成 AST 有什么帮助吗好的步骤如下前往ANTLR站点 http www antlr org 并下载最新版本下载Java g和JavaTreeParser g文件来自here htt
Convert.FromBase64String 方法的 Java 等效项

Java 中是否有相当于Convert FromBase64String http msdn microsoft com en us library system convert frombase64string aspx which 将指
java中删除字符串中的特殊字符？

如何删除字符串中除之外的特殊字符现在我用 replaceAll w s 它删除了所有特殊字符但我想保留谁能告诉我我该怎么办 Use replaceAll w s 我所做的是将下划线和连字符添加到正则表达式中我添加了一个连字符之前
如何在 Java 中禁用 System.out 以提高速度

我正在用 Java 编写一个模拟重力的程序其中有一堆日志语句到 System out 我的程序运行速度非常慢我认为日志记录可能是部分原因有什么方法可以禁用 System out 以便我的程序在打印时不会变慢或者我是否必须手动检查并
jdbc4.MySQLSyntaxErrorException：数据库中不存在表

我正在使用 SpringBoot 开发一个网络应用程序这是我的application properties文件来指定访问数据库的凭据 spring datasource driverClassName com mysql jdbc Dri
Prim 的迷宫生成算法：获取相邻单元格

我基于 Prim 算法编写了一个迷宫生成器程序该算法是 Prim 算法的随机版本从充满墙壁的网格开始选择一个单元格将其标记为迷宫的一部分将单元格的墙壁添加到墙壁列表中 While there are walls in the li
检查 Android 手机上的方向

如何查看Android手机是横屏还是竖屏当前配置用于确定要检索的资源可从资源中获取Configuration object getResources getConfiguration orientation 您可以通过查看其值来检查方向
Spring Data 与 Spring Data JPA 与 JdbcTemplate

我有信心Spring Data and Spring Data JPA指的是相同的但后来我在 youtube 上观看了一个关于他正在使用JdbcTemplate在那篇教程中所以我在那里感到困惑我想澄清一下两者之间有什么区别Spring
unordered_map 中字符串的 C++ 哈希函数

看起来 C 标准库中没有字符串的哈希函数这是真的在任何 c 编译器上使用字符串作为 unordered map 中的键的工作示例是什么 C STL提供模板专业化 http en cppreference com w cpp string
归并排序中的递归：两次递归调用

private void mergesort int low int high line 1 if low lt high line 2 int middle low high 2 line 3 mergesort low middle l
检查 protobuf 消息 - 如何按名称获取字段值？

我似乎无法找到一种方法来验证 protobuf 消息中字段的值而无需显式调用其 getter 我看到周围的例子使用Descriptors FieldDescriptor实例到达消息映射内部但它们要么基于迭代器要么由字段号驱动一旦我有
使用 AWS Java SDK 为现有 S3 对象设置 Expires 标头

我正在更新 Amazon S3 存储桶中的现有对象以设置一些元数据我想设置 HTTPExpires每个对象的标头以更好地处理 HTTP 1 0 客户端我们正在使用AWS Java SDK http aws amazon com sdkf
Java中未绑定通配符泛型的用途和要点是什么？

我不明白未绑定通配符泛型有什么用具有上限的绑定通配符泛型 stuff for Object item stuff System out println item Since PrintStream println 可以处理所有引用类型通
Keycloak - 自定义 SPI 未出现在列表中

我为我的 keycloak 服务器制作了一个自定义 SPI 现在我必须在管理控制台上配置它我将 SPI 添加为模块并手动安装因此我将其放在 module package name main 中并包含 module xml 我还将其放
Java - 不要用 bufferedwriter 覆盖

我有一个程序可以将人员添加到数组列表中我想做的是将这些人也添加到文本文件中但程序会覆盖第一行因此这些人会被删除如何告诉编译器在下一个空闲行写入 import java io import java util import javax
如何测试 spring-security-oauth2 资源服务器安全性？

随着 Spring Security 4 的发布改进了对测试的支持 http docs spring io spring security site docs 4 0 x reference htmlsingle test我想更新我当前的
休眠以持久保存日期

有没有办法告诉 Hibernate java util Date 应该持久保存我需要这个来解决 MySQL 中缺少的毫秒分辨率问题您能想到这种方法有什么缺点吗您可以自己创建字段long 或者使用自定义的UserType 实施后User
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso

随机推荐

IntelliJ 中的 CLI-Spring Shell

我正在 IntelliJ 中编写 CLI Spring shell 代码我运行它并给出一些参数但是当我输入 insert 并按 Enter 时控制台不接受它看起来好像什么也没发生 My code Component public c
如何强制iFrame打开所有链接保留在iFrame中？

我正在托管一个 iFrame 似乎当链接指向外部域时它会将其加载到主窗口而不是 iFrame 中有没有办法强制在同一个 iFrame 中打开链接注意我可以向 iFrame 中加载的页面添加任何我想要的内容使用 Chrome 扩展
.NET MVC 3 自定义控制器属性

这可能是天上掉馅饼但我想知道是否可以使用自定义控制器属性来完成以下操作对于大多数控制器我将向控制器内的每个操作传递一个名为 r 的 URL 参数 r 与我的数据库中的竞赛表中的竞赛 ID 相关联我希望发生的是每当调用控制器操作时
增加命中 S3 存储桶端点时允许的最大标头大小

I am curl 重定向到 S3 存储桶的端点我必须将一些大标头传递给我的请求但由于超出了最大标头大小该请求失败了
使用纯 JavaScript 单击隐藏 Bootstrap 模态框

我正在研究 Bootstrap Pop Up Modals 我有 2 个名为Button1 Button2 我有 2 个名为Modal1 Modal2 Note Button2是在里面Modal1 Button1在网页上如果我点击Butt
如何使用 Firebase 将初始数据加载与增量子项分开？

我有一个应用程序每 5 秒左右就会有新的子进程添加到 Firebase 中我有成千上万的孩子在应用程序加载时我希望以不同于每 5 秒一次的后续子项的方式处理最初的数千个子项您可能建议我使用值处理所有内容然后使用children
自动装箱与静态数字

有使用价值吗Integer i NumberUtils INTEGER ONE代替Integer i 1 我不知道自动拳击背后会发生什么 Thanks 基本上它会被编译成 Integer i Integer valueOf NumberUt
将包含 JSON 对象的数据框扩展为更大的数据框

我有一个带有两列的 pandas 数据框一个是 ID 另一个是长 JSON 对象对于数据帧中的每个对象来说都是相同的对象我的目标是为 JSON 对象中的每个键创建列这是输入的示例 ID request json 175431467
如何在 5 分钟内使 Django 会话过期？

我用它来登录用户 def login backend request if request method POST username request POST username password request POST password
如何从表中的列中删除默认值？

如何更改列以删除默认值该列是通过以下内容创建的 ALTER table sometable Add somecolumn nchar 1 NOT NULL DEFAULT N 然后修改为 alter table sometable alt
计算每个派生类的类实例

有没有办法让所有派生类计算它们的实例如何用 C C Java 之一编写代码想象一下我可以访问根类例如对象并且每个其他类都是直接或间接从该类派生的我想要的是 AnyDerivedClass InstancesCount 问题
对象原型不“实时更新”

我有以下代码 var Test function Test prototype doSomething function return done 现在我创建一个 Test 对象 var t new Test alert t doSomet
在虚拟环境中安装我自己的 python 模块

我拥有的我想要将其转换为模块的本地 Python3 文件test module test module包含空文件夹 init py a setup py文件见下文和具有多个源的子目录文件我想要的是不断努力和改进test modu
锁定Web API控制器方法

我正在使用 C 和 Net Framework 4 7 开发 ASP NET Web Api 应用程序我在控制器中有一种方法我只想一次仅由一个线程执行换句话说如果有人调用此方法则另一个调用必须等待该方法完成我找到了这个所以答案
RAILS_ROOT 需要吗？

我正在尝试访问 lib 目录中的文件中的 RAILS ROOT 常量但我无法未初始化常量错误我需要做些什么才能做到这一点吗是的您应该需要environment rb require File dirname FILE config
如何从私有 azure devops feed 恢复 nuget 包？

背景我在 azure devops 上的私有 nuget feed 中有 nuget 包我尝试从本地 TFS 中使用它们这有效但只持续了几个小时在 azure devops 中我导航到 Artifacts gt Connect
使用 NSubstitute 模拟表达式

我有一个包含以下方法签名的接口 TResult GetValue
在 yii 中对 CListView 进行排序

请考虑这一点 class User extends CActiveRecord public function relations return array articleCount gt array self STAT Article u
如何在 Spark 窗口函数中使用 orderby() 降序排列？

我需要一个窗口函数该函数按某些键列名称进行分区按另一个列名称进行排序并返回排名前 x 的行这对于升序来说效果很好 def getTopX df DataFrame top x String top key String top v
如何在 Java 中逐步解码大型多字节字符串文件？

我有一个程序可能需要处理可能包含多字节编码的大文件我当前执行此操作的代码存在创建内存结构来保存整个文件的问题如果文件很大这可能会导致内存不足错误 Charset charset Charset forName UTF 8 Charse

如何在 Java 中逐步解码大型多字节字符串文件？

如何在 Java 中逐步解码大型多字节字符串文件？ 的相关文章

随机推荐

热门标签

如何在 Java 中逐步解码大型多字节字符串文件？的相关文章