遍历子文件编码格式互换(UTF-8与GB2312)

2023-11-07

遍历子文件编码格式互换(UTF-8与GB2312)

在日常开发中，我们经常会遇到需要将文件的编码格式从一种转换为另一种的情况，特别是在不同的操作系统和编辑器之间共享代码文件时。本篇文章将介绍一个Python脚本，用于遍历指定文件夹下的所有.c和.h文件，实现编码格式的互换，即从UTF-8转换为GB2312，或者从GB2312转换为UTF-8，并且还能清除文件中的空行。

使用场景

当项目中的代码文件需要从一种编码格式转换为另一种编码格式时，特别是在协作开发或文件共享时。
当代码文件中存在大量空行，需要一键清除时。

代码功能

遍历指定文件夹下的所有.c和.h文件。
将文件的编码格式从源编码格式转换为目标编码格式。
清除文件中的空行，保持代码整洁。

代码思路

导入必要的库：os用于文件操作，chardet用于检测文件编码。
编写convert_encoding函数，接受文件路径、源编码格式和目标编码格式作为参数，实现编码格式转换。
编写convert_files_in_folder函数，遍历指定文件夹下的文件，调用convert_encoding实现编码转换。
编写cleanup_file函数，用于清除文件中的空行。
编写cleanup_files_in_folder函数，遍历指定文件夹下的文件，调用cleanup_file进行空行清除。
在主程序中，指定目标文件夹路径、源编码格式和目标编码格式，分别调用convert_files_in_folder和cleanup_files_in_folder函数。

示例图片

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mUMEUXp7-1692757789629)(图片链接)]

源代码

import os
import chardet


# 函数：convert_encoding
# 参数：file_path - 文件路径
#      source_encoding - 源编码格式
#      target_encoding - 目标编码格式
# 用途：将指定文件的编码从源编码格式转换为目标编码格式
def convert_encoding(file_path, source_encoding, target_encoding):
    # 打开文件以二进制只读模式读取文件内容
    with open(file_path, 'rb') as f:
        content = f.read()
        # 使用 chardet 检测文件内容的编码格式
        detected_encoding = chardet.detect(content)['encoding']

        # 如果检测到的编码格式为 None，将使用 source_encoding 作为默认编码
        if detected_encoding is None:
            detected_encoding = source_encoding

        # 如果检测到的编码与目标编码相同，直接返回
        if detected_encoding == target_encoding:
            return

        # 将文件内容按照检测到的编码解码为字符串
        content = content.decode(detected_encoding)

    # 打开文件以目标编码格式写入文件内容
    with open(file_path, 'w', encoding=target_encoding) as f:
        f.write(content)


# 函数：convert_files_in_folder
# 参数：folder_path - 文件夹路径
#      source_encoding - 源编码格式
#      target_encoding - 目标编码格式
# 用途：遍历指定文件夹下的所有 .c 和 .h 文件，并将其编码格式转换为目标编码格式
def convert_files_in_folder(folder_path, source_encoding, target_encoding):
    # 遍历指定文件夹及其子文件夹中的所有文件
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            # 如果文件以 .c 或 .h 结尾，则执行编码转换
            if file.endswith(('.c', '.h')):
                file_path = os.path.join(root, file)
                # 调用 convert_encoding 函数进行编码转换
                convert_encoding(file_path, source_encoding, target_encoding)
                print(f"Converted: {file_path}")


# 函数：cleanup_file
# 参数：file_path - 文件路径
# 用途：清理文件中的空行
def cleanup_file(file_path):
    with open(file_path, 'rb') as f:
        content = f.read()
        detected_encoding = chardet.detect(content)['encoding']

        if detected_encoding is None:
            detected_encoding = 'utf-8'

        content = content.decode(detected_encoding, errors='replace')
        lines = content.splitlines()

        cleaned_lines = []
        for line in lines:
            if line.strip():  # 如果不是空白行
                cleaned_lines.append(line)

        # 确保最后一行是空行
        if cleaned_lines and cleaned_lines[-1]:
            cleaned_lines.append('')  # 添加一个空行

        cleaned_content = '\n'.join(cleaned_lines)

    with open(file_path, 'w', encoding=detected_encoding, newline='') as f:
        f.write(cleaned_content)


# 函数：cleanup_files_in_folder
# 参数：folder_path - 文件夹路径
# 用途：遍历指定文件夹下的所有 .c 和 .h 文件，并清理文件中的空行
def cleanup_files_in_folder(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(('.c', '.h')):
                file_path = os.path.join(root, file)
                cleanup_file(file_path)
                print(f"Cleaned: {file_path}")


if __name__ == "__main__":
    target_folder_convert = r"D:\学习\PythonCode\User"
    source_encoding_convert = "utf-8"
    target_encoding_convert = "gb2312"
    convert_files_in_folder(target_folder_convert, source_encoding_convert, target_encoding_convert)
    print("编码转换完成。")

    cleanup_files_in_folder(target_folder_convert)
    print("空行删除完成。")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

工具

python

遍历子文件编码格式互换(UTF-8与GB2312) 的相关文章

蟒蛇 | MySQL | AttributeError：模块“mysql.connector”没有属性“connect”

我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
如何在多进程系统中实现锁定？

我们正在并行运行许多詹金斯项目我们使用 python 并且选择使用 pyenv 管理虚拟环境不幸的是 pyenv 有一个众所周知的竞争条件 https github com yyuu pyenv issues 174 为了解决这个问题
如何避免使用 python 处理空的标准输入？

The sys stdin readline 返回之前等待 EOF 或新行所以如果我有控制台输入 readline 等待用户输入相反我想打印帮助并在没有需要处理的情况下退出并显示错误而不是等待用户输入原因我正在寻找一个Pytho
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

MQTT.fx连接阿里云

第一步查看阿里云设备 MQTT 参数点击设备点击设备信息点击mqtt连接参数查看第2步打开 MQTT fx 软件点击齿轮点击新建项目输入项目名称 MQTT test 01 复制mqtt连接参数 clientId
GDAL库简介以及在Windows下编译过程

GDAL Geospatial Data Abstraction Library 地理空间数据抽象库是一个在X MIT许可协议下的开源栅格空间数据转换库官网http www gdal org index html 也可参考GitHub
Could not connect to ‘192.168.203.128‘ (port 22): Connection failed.

问题展示请在保证虚拟机和宿主机之间完美连接之后再看此篇文章如何保证呢操作请看这篇 Linux虚拟机与Windows宿主机间的通信如何验证呢当然是 ping 啊虚拟机 ping 主机通主机 ping 虚拟机通通常情况下
obj文件

obj 文件是一种常用的 3D 模型文件格式它由许多顶点坐标法向量和纹理坐标组成可以用来描述复杂的三维模型 obj 文件是一种文本文件可以使用纯文本编辑器打开也可以使用专门的 3D 模型软件来打开编辑和渲染 obj 文件通常与
1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

来源新智元导读一经发布地表最强开源模型Falcon 180B直接霸榜HF 3 5万亿token训练性能直接碾压Llama 2 一夜之间世界最强开源大模型Falcon 180B引爆全网 1800亿参数 Falcon在3 5万亿to
电路中的输入与输出电阻计算

电路的输入与输出电阻计算前言一输入电阻 1 一端口网络的概念一端口网络的特性输入电阻的计算方法前言本人是大二电子系的一个学生大二上在学习模电当学习到各种BJT电路 FET电路差分放大电路或负反馈放大电路时新学习的增益计
生信学习——生信人的20个R语言习题（上）（附详细答案解读）

题目目录 1 安装一些R包 2 了解ExpressionSet对象比如CLL包里面就有data sCLLex 找到它包含的元素提取其表达矩阵使用exprs函数查看其大小 3 了解 str head help函数作用于第二步提取到的
第 14 篇 : 安装Docker

1 安装任选其一从160 165依次安装批量安装 1 1 按照官方文档安装 Install on CentOS 1 2 通过阿里云镜像安装推荐 sudo yum remove docker docker client docker
陶氏公司将出席2023第二届中国汽车碳中和峰会

2023第二届中国汽车碳中和峰会将于10月19日 20日在上海举办本次峰会将为行业领导者政策制定者和专家提供一个平台讨论汽车行业减少碳排放的策略专家们将从政策供应链 ESG 替代能源解决方案汽车材料创新法律等不同领域分享碳中和
01.个人项目难点汇总2 css定制科技感缺角边框

01 CSS3实现缺角矩形折角矩形以及缺角边框前言前几天偶然看到缺角矩形这个功能脑袋中第一想法是搞个绝对定位的伪元素哪里需要挡哪里或者找UI小哥聊聊天忽然灵光一闪想起之前翻过的 CSS揭秘一书记得有这个篇章遂有了此文
react入门+UMI

React 一创建项目安装基本第三方库以及配置所需目录 sudo npm i g create react app npm下安装react环境 create react app react demo 创建一个项目名为react demo
从Gles、Vulkan到Metal（一）-- 数据和提交

无论以任何形式本篇文章内容请注明来自leonnwei的csdn blog 引言一直想整理下关于移动端图形编程API的文档图形API为何重要如果说图形编程的内功是计算机图形学的诸原理和算法那么外功就是实实在在的硬件API 不能精通A
Apache License 2.0

Apache License 2 0 是 Apache 软件基金会发布的开源软件许可证它是一种宽松的允许商用的许可证适用于开源项目和商业项目 Apache 2 0 许可证是一个相对较新的版本于2004年发布取代了早期的 Apach
决策树——信息熵，条件熵，信息增益

1 信息熵信息熵是度量样本集的纯合度的一种常用的指标熵值越大随机变量的不确定性越高比如 0 0 01 1 1 1 1 2 3 4 5 6 7 在这两组数据中上面的数据的不确定性要小只有两种可能性抽中的数字2的概率为1 2 所以
overleaf写论文笔记（latex）

overleaf官网 www overleaf com overleaf中文版 cn overleaf com 目录从零开始获取模板文章标题修改作者修改摘要页脚文字重叠遮挡三线表绘制表格内单元格合并不同行列数不同文字加
黑盒、白盒、灰盒，如何选择合适的模糊测试工具？

在软件开发和安全领域模糊测试是一种常用技术用于发现应用程序或系统中的潜在漏洞和安全弱点选择不同的模糊测试方法将极大地影响测试的有效性和效率本文将比较对比黑盒白盒和灰盒模糊测试的特点和优势并提供选型指导模糊测试的分类黑盒模糊测试
JDBC学习笔记一之JDBC的下载、引用、标准api介绍

1 下载MySQL的JDBC驱动jar包进入MySQL官网 https www mysql com 然后按图操作 2 下载Oracle的JDBC驱动jar包按图提示操作 2 1引用Oracle的JDBC驱动jar包 2 2 Oracle
软件测试工程师工作有多累?怎么入门学习软件测试呢？

软件测试随着时间的发展越来越受欢迎了那么你了解过软件测试吗软件测试工程师工作累吗跟随千锋一起来了解一下吧 1 其实IT行业都需要经常加班的所以软件测试和软件开发其实都一样当然了一般来说开发会更累一点 2 目前国内软件测试的待
neo4j 内存介绍

描述Neo4j内存配置和使用的不同方面内容翻译neo4j 操作手册 1 总览 1 1 操作系统内存必须保留一些内存以运行操作系统本身的进程不可能显式配置应为操作系统保留的RAM数量因为这是在配置页面缓存和堆空间之后仍保持可用的RAM
遍历子文件编码格式互换(UTF-8与GB2312)

遍历子文件编码格式互换 UTF 8与GB2312 在日常开发中我们经常会遇到需要将文件的编码格式从一种转换为另一种的情况特别是在不同的操作系统和编辑器之间共享代码文件时本篇文章将介绍一个Python脚本用于遍历指定文件夹下的所有 c

遍历子文件编码格式互换(UTF-8与GB2312)

遍历子文件编码格式互换(UTF-8与GB2312)

使用场景

代码功能

代码思路

示例图片

源代码

遍历子文件编码格式互换(UTF-8与GB2312) 的相关文章

随机推荐

热门标签