将 UTF-16 转换为 UTF-8 并删除 BOM？

2024-04-19

我们有一位数据输入人员在 Windows 上使用 UTF-16 编码，希望使用 utf-8 并删除 BOM。 utf-8 转换有效，但 BOM 仍然存在。我该如何删除这个？这就是我目前所拥有的：

batch_3={'src':'/Users/jt/src','dest':'/Users/jt/dest/'}
batches=[batch_3]

for b in batches:
  s_files=os.listdir(b['src'])
  for file_name in s_files:
    ff_name = os.path.join(b['src'], file_name)  
    if (os.path.isfile(ff_name) and ff_name.endswith('.json')):
      print ff_name
      target_file_name=os.path.join(b['dest'], file_name)
      BLOCKSIZE = 1048576
      with codecs.open(ff_name, "r", "utf-16-le") as source_file:
        with codecs.open(target_file_name, "w+", "utf-8") as target_file:
          while True:
            contents = source_file.read(BLOCKSIZE)
            if not contents:
              break
            target_file.write(contents)

如果我 hexdump -C 我看到：

Wed Jan 11$ hexdump -C svy-m-317.json 
00000000  ef bb bf 7b 0d 0a 20 20  20 20 22 6e 61 6d 65 22  |...{..    "name"|
00000010  3a 22 53 61 76 6f 72 79  20 4d 61 6c 69 62 75 2d  |:"Savory Malibu-|

在生成的文件中。如何删除 BOM？

thx

这就是之间的区别UTF-16LE and UTF-16

UTF-16LE是小尾数without a BOM
UTF-16是大端还是小端with a BOM

所以当你使用UTF-16LE，BOM只是文本的一部分。使用UTF-16相反，BOM 会被自动删除。原因UTF-16LE and UTF-16BE存在的目的是让人们可以携带“正确编码”的文本而无需 BOM，但这不适用于您。

请注意当您使用一种编码进行编码并使用另一种编码进行解码时会发生什么。 (UTF-16自动检测UTF-16LE有时，但并不总是。）

>>> u'Hello, world'.encode('UTF-16LE')
'H\x00e\x00l\x00l\x00o\x00,\x00 \x00w\x00o\x00r\x00l\x00d\x00'
>>> u'Hello, world'.encode('UTF-16')
'\xff\xfeH\x00e\x00l\x00l\x00o\x00,\x00 \x00w\x00o\x00r\x00l\x00d\x00'
 ^^^^^^^^ (BOM)

>>> u'Hello, world'.encode('UTF-16LE').decode('UTF-16')
u'Hello, world'
>>> u'Hello, world'.encode('UTF-16').decode('UTF-16LE')
u'\ufeffHello, world'
    ^^^^ (BOM)

或者您可以在 shell 中执行此操作：

for x in * ; do iconv -f UTF-16 -t UTF-8 <"$x" | dos2unix >"$x.tmp" && mv "$x.tmp" "$x"; done

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

UTF8

utf16

将 UTF-16 转换为 UTF-8 并删除 BOM？的相关文章

AWS Lambda 错误：无法导入模块“function_name”：没有名为“module._module”的模块

阅读后请特别查看屏幕截图我正在 AWS Lambda 上部署一个使用该包的 python 脚本impyla它依赖于包bitarray from impala dbapi import connect 我的Python文件名为authori
Python Numpy TypeError：输入类型不支持 ufunc 'isfinite'

这是我的代码 def topK dataMat sensitivity meanVals np mean dataMat axis 0 meanRemoved dataMat meanVals covMat np cov meanRemov
有没有办法离线将多个 Plotly HTML 文件合并/嵌入到一个页面/HTML 文件中？

我正在尝试将多个图表合并成一个 HTML 报告来发送问题是我真的不认为子图是最好的主意因为图表相对不相关不同的 X Y 轴我所需要做的只是将图表附加到 1 个 HTML 文件中有一个指南解释了如何使用绘图 URL 来完成此操作但
将 python scikit learn 模型导出到 pmml

我想将 python scikit learn 模型导出到 PMML 中什么 python 包最适合我读到Augustus https github com opendatagroup augustus 但我找不到任何使用 scikit
为什么 Dash 在上传文件时会出现解析错误？

上传 Excel 或 CSV 会导致错误我遵循了 Dash 演示但是当我尝试扩展它来执行绘图之类的操作时它就不起作用了我不想只显示一张桌子 Dash Table 函数已更新因此之前使用 Dash Table Experiments
为什么通过selenium切换到alert不稳定？

为什么通过selenium切换到alert不稳定例如 1 运行代码一切顺利一切都很顺利但如果这段代码在几分钟内运行那么可能会出现错误例如没有可以单击的元素等等 2 在一个站点上有一个警报窗口 alert driver swi
使用底图和Python在地图中绘制海洋

我正在绘制此处提供的 netCDF 文件 https goo gl QyUI4J https goo gl QyUI4J Using the code below the map looks like this 然而我希望海洋是白色的更
将 pandas DataFrame 与 Series 进行比较

我看过this https stackoverflow com questions 26285661 working with comparing dataframes and series and generating new dataf
如何使用增量值向 Pyspark 中的 DataFrame 添加列？

我有一个名为 df 的 DataFrame 如下所示 Atr1 Atr2 Atr3 A A A B A A C A A 我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame Atr1 Atr2 Atr3
如何在 Python 中重命名文件并保留创建日期

我知道创建日期不存储在文件系统本身中但是当我使用时我遇到了问题os rename 它正在更新我正在使用的文件的创建日期是否可以重命名文件而不更改其原始创建日期正如都铎所说你可以使用os stat http docs python o
SyntaxError：多个异常类型必须用括号括起来

我是初学者在使用 python 安装 pycaw 进行音频控制后遇到问题在放置 pycaw 的基本初始化代码时出现以下错误 Traceback most recent call last File c Users volumeCont
为什么删除 DataFrame 的列或部分会增加内存使用量，以及如何确保对未使用的 DataFrame 切片进行垃圾回收

处理大型 DataFrame 时您需要小心内存使用情况例如您可能想要分块下载大数据处理这些块然后从内存中删除所有不必要的部分我找不到任何有关处理垃圾收集的最佳程序的资源pandas 但我尝试了以下方法并得到了令人惊讶的结果 im
插入失败“OperationalError：没有这样的列”

我尝试使用我尝试修复的姓名和电话创建一个数据库但它会随时向我重播 File exm0 py line 14 in
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在按照 DISCO 示例来计算文件中的单词数将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题但是我想尝试从包含
了解 Tensorflow 中的 while 循环

我正在使用用于 Tensorflow 的 Python API https www tensorflow org api docs python 我正在努力实施罗森布罗克函数 https www sfu ca ssurjano rosen
如何使用Django模板作为组件？

我有 5 个模板 index html detail html tag html login html register html and a 基本 html 所有 5 个模板都会扩展基本 html 索引 html 详细信息 html 标签
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr
帮助我在 Python 中实现反向传播

EDIT2 新的训练集 Inputs 0 0 0 0 0 0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 1 0 0 0 1 0 1 0 1 0 2 0 1 0 3 0 1 0 4 0 2 0 0 0 2 0 1 0 2 0 2
python字符串包含双引号字符

我的输入字符串由字符组成包括双引号和单引号和 B SS JU PQ AD DDSFD ABD E J 但是当我从文本文件打开上述输入并打印它时第三行中的双引号被打印为 xe2 x80 x9d 我的目标是进行简单的字符计数 B 2
保存 Jupyter Notebook，并显示 Plotly Express 小部件

我有一个 Jupyter 笔记本 python 我使用plotlyexpress 在笔记本中绘图以进行分析我想与非编码人员共享此笔记本并让交互式视觉效果仍然可用但它似乎不起作用我尝试以下此处提出的建议 https community

随机推荐

如何在现有高流量网站上进行facebook审核流程？

I have 已经实现 Facebook 登录注册在网站上使用 Javascript 和 PHP SDK 的组合我记得审核过程大约花了一两天的时间那是一个全新的网站现在我需要将相同的功能添加到另一个现有的且目前每天有数百名访问者
如何使用 devtoolset-8-gcc 安装 gcc8

我使用的是 CentOS Linux 版本 7 3 1611 其中安装了 gcc 4 8 5 20150623 我正在寻找一种安装较新版本的 gcc 的方法特别是 8 1 我找到了以下关于如何安装 gcc v7 的网站link 1 htt
结合使用 `mutate_at` 和 `na_if` 仅将某些列的零替换为 NA

我的数据采用以下格式 library tidyverse df lt mtcars df lt df gt mutate vs doubled vs 2 gt select mpg cyl vs am vs doubled head df
Socket ReceiveAsync 合并数据包

我打算通过套接字接收数据包但由于它们是从发送方以高频率发送的因此其中许多数据包被打包成一个byte array SocketAsyncEventArgs Buffer然后保存多个数据包即使它们是单独发送的使用验证wireshark
TypeScript + React：强制该组件返回另一种类型的组件

假设您有一个名为的通用组件
将参数传递给注册策略

我正在注册策略的帮助下使用社交身份提供商创建 B2C 用户但我们需要向这个新用户添加一些用户属性扩展属性例如为用户设置 AccountId 如果我添加 AccountId 作为注册属性并输入一些值它工作正常当我通过图形 API 检
如何增加R中ggplot2的geom_smooth中的评估点数

我正在创建一个绘图并为其添加基本的黄土平滑线 qplot Age GTS2004 X d18O data deepsea geom c point geom smooth method loess se T span 0 01 alpha
javafx大图像崩溃

JavaFX 新手此示例适用于小图像但是大图像会使 ImageView 崩溃我的示例代码有缺陷吗 JavaFX 中的大图像有问题吗还有别的事吗我从网上抓了一个例子 http www java2s com Code Java Jav
MySQL 服务器无法在 Raspberry Pi 上启动 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用运行 Debian Linux 的 Raspberry Pi 我正在尝试安装 MySQL 服务器并运行它这是我所做的 sudo
htaccess 阻止访问 .php 并仅允许使用 RewriteRule

我有一个带有这些重写规则的 htaccess 文件 RewriteEngine On RewriteRule login login php L RewriteRule index index php L RewriteRule page
如何在 numpy 数组中绘制线条？

我希望能够将线条绘制到 numpy 数组中以获得用于在线手写识别的离线功能这意味着我根本不需要图像但我需要 numpy 数组中的某些位置给定大小的图像看起来像这些位置我希望能够指定图像大小然后绘制如下笔画 import modu
在另一个 while 循环内的 while 循环内执行 mysqli 准备好的语句

我正在努力实现以下目标 User 1 Alert 1 Email Alert 2 Email User 2 Alert 1 Email Alert 2 Email 我试图在另一个运行 mysqli 准备好的语句的 while 循环中使用 w
X-Forwarded-For 和 X-Real-IP 标头之间的差异

我使用 Nginx 作为反向代理这些标头有什么区别 proxy set header X Forwarded For proxy add x forwarded for proxy set header X Real IP remote
为什么这个 Spring Boot Web 应用程序不需要 @Repository？

我正在学习 Spring Boot 和 JPA Spring Data Rest H2 数据库并且我找到了一个教程我试图理解它这是一个简单的例子但我不明白一些东西为什么没有必要放 Repository or Component在
使用 gcloud 的凭据助手访问 Google 源存储库会阻止 osxkeychain 工作

In the Google 源代码存储库文档 https cloud google com source repositories docs adding repositories as remotes 它要求你使用git config c
Python中配对列表的随机样本

I have two lists x and y both of length n with xi and yi forming a pair How could I take a random sample of m values fro
Symfony2：检查会话是否存在

有没有办法检查会话是否存在我尝试过这种方法但它总是给我一个太棒了回答 session this gt getRequest gt hasPreviousSession if session return new Response B
无法展开 RemoteView

我尝试创建自定义通知但出现以下异常 FATAL EXCEPTION main android app RemoteServiceException Bad notification posted from package com my a
是否可以禁用 MVC 控制器中一项操作的授权？

我在控制器上有一个授权属性但我想通过一个操作将其关闭我创建了自己的授权过滤器并将匿名添加到角色列表中在我的过滤器中如果 Anonymous 出现在角色列表中我将返回 true 然而它似乎并没有通过登录页面就好像控制器授权抢
将 UTF-16 转换为 UTF-8 并删除 BOM？

我们有一位数据输入人员在 Windows 上使用 UTF 16 编码希望使用 utf 8 并删除 BOM utf 8 转换有效但 BOM 仍然存在我该如何删除这个这就是我目前所拥有的 batch 3 src Users jt src

将 UTF-16 转换为 UTF-8 并删除 BOM？

将 UTF-16 转换为 UTF-8 并删除 BOM？ 的相关文章

随机推荐

热门标签

将 UTF-16 转换为 UTF-8 并删除 BOM？的相关文章