遍历子文件编码格式互换(UTF-8与GB2312)

2023-11-07

遍历子文件编码格式互换(UTF-8与GB2312)

在日常开发中,我们经常会遇到需要将文件的编码格式从一种转换为另一种的情况,特别是在不同的操作系统和编辑器之间共享代码文件时。本篇文章将介绍一个Python脚本,用于遍历指定文件夹下的所有.c.h文件,实现编码格式的互换,即从UTF-8转换为GB2312,或者从GB2312转换为UTF-8,并且还能清除文件中的空行。

使用场景

  • 当项目中的代码文件需要从一种编码格式转换为另一种编码格式时,特别是在协作开发或文件共享时。
  • 当代码文件中存在大量空行,需要一键清除时。

代码功能

  1. 遍历指定文件夹下的所有.c.h文件。
  2. 将文件的编码格式从源编码格式转换为目标编码格式。
  3. 清除文件中的空行,保持代码整洁。

代码思路

  1. 导入必要的库:os用于文件操作,chardet用于检测文件编码。
  2. 编写convert_encoding函数,接受文件路径、源编码格式和目标编码格式作为参数,实现编码格式转换。
  3. 编写convert_files_in_folder函数,遍历指定文件夹下的文件,调用convert_encoding实现编码转换。
  4. 编写cleanup_file函数,用于清除文件中的空行。
  5. 编写cleanup_files_in_folder函数,遍历指定文件夹下的文件,调用cleanup_file进行空行清除。
  6. 在主程序中,指定目标文件夹路径、源编码格式和目标编码格式,分别调用convert_files_in_foldercleanup_files_in_folder函数。

示例图片

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mUMEUXp7-1692757789629)(图片链接)]

源代码

import os
import chardet


# 函数:convert_encoding
# 参数:file_path - 文件路径
#      source_encoding - 源编码格式
#      target_encoding - 目标编码格式
# 用途:将指定文件的编码从源编码格式转换为目标编码格式
def convert_encoding(file_path, source_encoding, target_encoding):
    # 打开文件以二进制只读模式读取文件内容
    with open(file_path, 'rb') as f:
        content = f.read()
        # 使用 chardet 检测文件内容的编码格式
        detected_encoding = chardet.detect(content)['encoding']

        # 如果检测到的编码格式为 None,将使用 source_encoding 作为默认编码
        if detected_encoding is None:
            detected_encoding = source_encoding

        # 如果检测到的编码与目标编码相同,直接返回
        if detected_encoding == target_encoding:
            return

        # 将文件内容按照检测到的编码解码为字符串
        content = content.decode(detected_encoding)

    # 打开文件以目标编码格式写入文件内容
    with open(file_path, 'w', encoding=target_encoding) as f:
        f.write(content)


# 函数:convert_files_in_folder
# 参数:folder_path - 文件夹路径
#      source_encoding - 源编码格式
#      target_encoding - 目标编码格式
# 用途:遍历指定文件夹下的所有 .c 和 .h 文件,并将其编码格式转换为目标编码格式
def convert_files_in_folder(folder_path, source_encoding, target_encoding):
    # 遍历指定文件夹及其子文件夹中的所有文件
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            # 如果文件以 .c 或 .h 结尾,则执行编码转换
            if file.endswith(('.c', '.h')):
                file_path = os.path.join(root, file)
                # 调用 convert_encoding 函数进行编码转换
                convert_encoding(file_path, source_encoding, target_encoding)
                print(f"Converted: {file_path}")


# 函数:cleanup_file
# 参数:file_path - 文件路径
# 用途:清理文件中的空行
def cleanup_file(file_path):
    with open(file_path, 'rb') as f:
        content = f.read()
        detected_encoding = chardet.detect(content)['encoding']

        if detected_encoding is None:
            detected_encoding = 'utf-8'

        content = content.decode(detected_encoding, errors='replace')
        lines = content.splitlines()

        cleaned_lines = []
        for line in lines:
            if line.strip():  # 如果不是空白行
                cleaned_lines.append(line)

        # 确保最后一行是空行
        if cleaned_lines and cleaned_lines[-1]:
            cleaned_lines.append('')  # 添加一个空行

        cleaned_content = '\n'.join(cleaned_lines)

    with open(file_path, 'w', encoding=detected_encoding, newline='') as f:
        f.write(cleaned_content)


# 函数:cleanup_files_in_folder
# 参数:folder_path - 文件夹路径
# 用途:遍历指定文件夹下的所有 .c 和 .h 文件,并清理文件中的空行
def cleanup_files_in_folder(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(('.c', '.h')):
                file_path = os.path.join(root, file)
                cleanup_file(file_path)
                print(f"Cleaned: {file_path}")


if __name__ == "__main__":
    target_folder_convert = r"D:\学习\PythonCode\User"
    source_encoding_convert = "utf-8"
    target_encoding_convert = "gb2312"
    convert_files_in_folder(target_folder_convert, source_encoding_convert, target_encoding_convert)
    print("编码转换完成。")

    cleanup_files_in_folder(target_folder_convert)
    print("空行删除完成。")

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

遍历子文件编码格式互换(UTF-8与GB2312) 的相关文章

  • 蟒蛇 | MySQL | AttributeError:模块“mysql.connector”没有属性“connect”

    我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
  • 如何在多进程系统中实现锁定?

    我们正在并行运行许多詹金斯项目 我们使用 python 并且选择使用 pyenv 管理虚拟环境 不幸的是 pyenv 有一个众所周知的竞争条件 https github com yyuu pyenv issues 174 为了解决这个问题
  • 如何避免使用 python 处理空的标准输入?

    The sys stdin readline 返回之前等待 EOF 或新行 所以如果我有控制台输入 readline 等待用户输入 相反 我想打印帮助并在没有需要处理的情况下退出并显示错误 而不是等待用户输入 原因 我正在寻找一个Pytho
  • 是否可以从 Julia 调用 Python 函数并返回其结果?

    我正在使用 Python 从网络上抓取数据 我想使用这些数据在 Julia 中运行计算 是否可以在 Julia 中调用该函数并返回其结果 或者我最好直接导出到 CSV 并以这种方式加载数据 绝对地 看PyCall jl https gith
  • 无法在 selenium 和 requests 之间传递 cookie,以便使用后者进行抓取

    我用 python 结合 selenium 编写了一个脚本来登录网站 然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
  • 如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象?

    当对 Pandas groupby 操作的结果执行过滤时 它返回一个数据帧 但假设我想执行进一步的分组计算 我必须再次调用 groupby 这似乎有点绕 有更惯用的方法吗 EDIT 为了说明我在说什么 我们无耻地从 Pandas 文档中窃取
  • 使用 Paramiko 进行 DSA 密钥转发?

    我正在使用 Paramiko 在远程服务器上执行 bash 脚本 在其中一些脚本中 存在与其他服务器的 ssh 连接 如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用 以连接
  • 在 python pandas 中,如何保存“网格图”?

    我对 pandas 绘图工具很陌生 在文档中 以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而 当我尝试从图中获取图形参考并保存它时 问题就出现了 myfigure myp
  • 如何使用scrapy检查网站是否支持http、htts和www前缀

    我正在使用 scrapy 来检查某些网站是否工作正常 当我使用http example com https example com or http www example com 当我创建 scrapy 请求时 它工作正常 例如 在我的pa
  • Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度;使用 httperf 和 ab 进行测试

    我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器 当我使用 httperf 进行性能测量时 如果每次使用 num conn 启动一个新请求 我每秒可以执行超过 1 000 个请求 如果我使
  • Plotly:如何检查基本图形结构(版本 4)

    对于旧版本的plotly 例如在 Jupyterlab 中 您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
  • 是否需要关闭没有引用它们的文件?

    作为一个完全的编程初学者 我试图理解打开和关闭文件的基本概念 我正在做的一项练习是创建一个脚本 允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
  • 在骨架图像中查找线 OpenCV python

    我有以下图片 我想找到一些线来进行一些计算 平均长度等 我尝试使用HoughLinesP 但它找不到线 我能怎么做 这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
  • Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

    我想获得维基百科与搜索词相关的可能且可接受的名称列表 在这种情况下是 电晕 当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
  • 如何指示 urwid 列表框的项目数多于当前显示的项目数?

    有没有办法向用户显示 urwid 列表框在显示部分上方 下方有其他项目 我正在考虑类似滚动条的东西 它可以显示条目的数量 或者列表框顶部 底部的单独栏 如果这个行为无法实现 有哪些方法可以实现这个通知 在我的研究过程中 我发现这个问题 ht
  • AWS Lambda 不读取环境变量

    我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据 我在 AWS 中将其作为 lambda 函数执行 我已经在控制台中设置了环境变量 但是当我执行函数时 出现以下错误 module initialization
  • 如何将带有参数的Python装饰器实现为类?

    我正在尝试实现一个接受一些参数的装饰器 通常带有参数的装饰器被实现为双重嵌套闭包 如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
  • minizinc python 安装

    我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装 我可以导入该模块 但是 我正在遵循基本示例https minizinc py
  • 将 Keras 集成到 SKLearn 管道?

    我有一个 sklearn 管道 对异构数据类型 布尔 分类 数字 文本 执行特征工程 并想尝试使用神经网络作为我的学习算法来拟合模型 我遇到了输入数据形状的一些问题 我想知道我想做的事情是否可能 或者我是否应该尝试不同的方法 我尝试了几种不
  • 无法安装最新版本的 Numpy (1.22.3)

    我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本 我知道我可以从源代码本地安装它 但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

  • MQTT.fx连接阿里云

    第一步 查看阿里云设备 MQTT 参数 点击 设备 点击 设备信息 点击mqtt连接参数 查看 第2步 打开 MQTT fx 软件 点击 齿轮 点击 新建项目 输入项目名称 MQTT test 01 复制mqtt连接参数 clientId
  • GDAL库简介以及在Windows下编译过程

    GDAL Geospatial Data Abstraction Library 地理空间数据抽象库 是一个在X MIT许可协议下的开源栅格空间数据转换库 官网http www gdal org index html 也可参考GitHub
  • Could not connect to ‘192.168.203.128‘ (port 22): Connection failed.

    问题展示 请在保证虚拟机和宿主机之间完美连接之后 再看此篇文章 如何保证呢 操作请看这篇 Linux虚拟机与Windows宿主机间的通信 如何验证呢 当然是 ping 啊 虚拟机 ping 主机 通 主机 ping 虚拟机 通 通常情况下
  • obj文件

    obj 文件是一种常用的 3D 模型文件格式 它由许多顶点坐标 法向量和纹理坐标组成 可以用来描述复杂的三维模型 obj 文件是一种文本文件 可以使用纯文本编辑器打开 也可以使用专门的 3D 模型软件来打开 编辑和渲染 obj 文件通常与
  • 1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

    来源 新智元 导读 一经发布 地表最强开源模型Falcon 180B直接霸榜HF 3 5万亿token训练 性能直接碾压Llama 2 一夜之间 世界最强开源大模型Falcon 180B引爆全网 1800亿参数 Falcon在3 5万亿to
  • 电路中的输入与输出电阻计算

    电路的输入与输出电阻计算 前言 一 输入电阻 1 一端口网络的概念 一端口网络的特性 输入电阻的计算方法 前言 本人是大二电子系的一个学生 大二上在学习模电 当学习到各种BJT电路 FET电路 差分放大电路或负反馈放大电路时 新学习的增益计
  • 生信学习——生信人的20个R语言习题(上)(附详细答案解读)

    题目目录 1 安装一些R包 2 了解ExpressionSet对象 比如CLL包里面就有data sCLLex 找到它包含的元素 提取其表达矩阵 使用exprs函数 查看其大小 3 了解 str head help函数 作用于第二步提取到的
  • 第 14 篇 : 安装Docker

    1 安装 任选其一 从160 165依次安装 批量安装 1 1 按照官方文档安装 Install on CentOS 1 2 通过阿里云镜像安装 推荐 sudo yum remove docker docker client docker
  • 陶氏公司将出席2023第二届中国汽车碳中和峰会

    2023第二届中国汽车碳中和峰会将于10月19日 20日在上海举办 本次峰会将为行业领导者 政策制定者和专家提供一个平台 讨论汽车行业减少碳排放的策略 专家们将从政策 供应链 ESG 替代能源解决方案 汽车材料创新 法律等不同领域分享碳中和
  • 01.个人项目难点汇总2 css定制科技感缺角边框

    01 CSS3实现缺角矩形 折角矩形以及缺角边框 前言 前几天偶然看到缺角矩形这个功能 脑袋中第一想法是 搞个绝对定位的伪元素 哪里需要挡哪里 或者找UI小哥聊聊天 忽然灵光一闪 想起之前翻过的 CSS揭秘 一书 记得有这个篇章 遂有了此文
  • react入门+UMI

    React 一 创建项目 安装基本第三方库以及配置所需目录 sudo npm i g create react app npm下安装react环境 create react app react demo 创建一个项目名为react demo
  • 从Gles、Vulkan到Metal(一)-- 数据和提交

    无论以任何形式本篇文章内容 请注明来自leonnwei的csdn blog 引言 一直想整理下关于移动端图形编程API的文档 图形API为何重要 如果说图形编程的内功是计算机图形学的诸原理和算法 那么外功就是实实在在的硬件API 不能精通A
  • Apache License 2.0

    Apache License 2 0 是 Apache 软件基金会发布的开源软件许可证 它是一种宽松的 允许商用的许可证 适用于开源项目和商业项目 Apache 2 0 许可证是一个相对较新的版本 于2004年发布 取代了早期的 Apach
  • 决策树——信息熵,条件熵,信息增益

    1 信息熵 信息熵是度量样本集的纯合度的一种常用的指标 熵值越大 随机变量的不确定性越高 比如 0 0 01 1 1 1 1 2 3 4 5 6 7 在这两组数据中 上面的数据的不确定性要小 只有两种可能性 抽中的数字2的概率为1 2 所以
  • overleaf写论文笔记(latex)

    overleaf官网 www overleaf com overleaf中文版 cn overleaf com 目录 从零开始 获取模板 文章标题修改 作者修改 摘要 页脚文字重叠 遮挡 三线表绘制 表格内单元格合并 不同行列数不同 文字加
  • 黑盒、白盒、灰盒,如何选择合适的模糊测试工具?

    在软件开发和安全领域 模糊测试是一种常用技术 用于发现应用程序或系统中的潜在漏洞和安全弱点 选择不同的模糊测试方法将极大地影响测试的有效性和效率 本文将比较对比黑盒 白盒和灰盒模糊测试的特点和优势并提供选型指导 模糊测试的分类 黑盒模糊测试
  • JDBC学习笔记一之JDBC的下载、引用、标准api介绍

    1 下载MySQL的JDBC驱动jar包 进入MySQL官网 https www mysql com 然后按图操作 2 下载Oracle的JDBC驱动jar包 按图提示操作 2 1引用Oracle的JDBC驱动jar包 2 2 Oracle
  • 软件测试工程师工作有多累?怎么入门学习软件测试呢?

    软件测试随着时间的发展 越来越受欢迎了 那么 你了解过软件测试吗 软件测试工程师工作累吗 跟随千锋一起来了解一下吧 1 其实IT行业都需要经常加班的 所以软件测试和软件开发其实都一样 当然了 一般来说开发会更累一点 2 目前国内软件测试的待
  • neo4j 内存介绍

    描述Neo4j内存配置和使用的不同方面 内容翻译neo4j 操作手册 1 总览 1 1 操作系统内存 必须保留一些内存以运行操作系统本身的进程 不可能显式配置应为操作系统保留的RAM数量 因为这是在配置页面缓存和堆空间之后仍保持可用的RAM
  • 遍历子文件编码格式互换(UTF-8与GB2312)

    遍历子文件编码格式互换 UTF 8与GB2312 在日常开发中 我们经常会遇到需要将文件的编码格式从一种转换为另一种的情况 特别是在不同的操作系统和编辑器之间共享代码文件时 本篇文章将介绍一个Python脚本 用于遍历指定文件夹下的所有 c