读取文件时如何从Python中的行分隔符中排除U+2028？

2024-06-03

我有一个 UTF-8 格式的文件，其中某些行包含 U+2028 行分隔符（http://www.fileformat.info/info/unicode/char/2028/index.htm http://www.fileformat.info/info/unicode/char/2028/index.htm）。当我从文件中读取行时，我不希望将其视为换行符。当我迭代文件或使用 readlines() 时，有没有办法将其从分隔符中排除？（除了将整个文件读入字符串然后按 \n 分割。）谢谢！

我无法在 mac os x 上的 python 2.5、2.6 或 3.0 中重复此行为 - U+2028 始终被视为非结束行。您能更详细地说明您在哪里看到此错误吗？

也就是说，这里是“文件”类的一个子类，它可能会执行您想要的操作：

#/usr/bin/python
# -*- coding: utf-8 -*-
class MyFile (file):
    def __init__(self, *arg, **kwarg):
        file.__init__(self, *arg, **kwarg)
        self.EOF = False
    def next(self, catchEOF = False):
        if self.EOF:
            raise StopIteration("End of file")
        try:
            nextLine= file.next(self)
        except StopIteration:
            self.EOF = True
            if not catchEOF:
                raise
            return ""
        if nextLine.decode("utf8")[-1] == u'\u2028':
            return nextLine+self.next(catchEOF = True)
        else:
            return nextLine

A = MyFile("someUnicode.txt")
for line in A:
    print line.strip("\n").decode("utf8")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

UTF8

readline

separator

读取文件时如何从Python中的行分隔符中排除U+2028？的相关文章

sklearn DeprecationWarning 数组的真值

从文档中运行 rasa core 示例 python3 m rasa core run d models dialogue u models nlu default current 并在对话框中的每条消息后获取此错误输出 sklearn D
如何将 ctype_alpha 与 UTF-8 结合使用

如何将 ctype alpha 与 UTF 8 一起使用我有这个代码 if empty POST false if isset POST first name empty POST first name if ctype alpha PO
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

android.view.InflateException：二进制 XML 文件行 #2：二进制 XML 文件行 #2：错误膨胀类 android.support.design.widget.CoordinatorLayout

尝试在 Nexus 5x 中运行该应用程序时出现此错误下面是堆栈 04 16 22 41 37 083 23199 23199 au com E AndroidRuntime FATAL EXCEPTION main Process au
django.db.utils.OperationalError：Shell 命令 forloop 中外键不匹配

我正在研究以下两个 Django 模型以用户作为外键的组织模型和以组织作为外键的类别列表以下是Models Create your models here from django contrib auth models import U
在制作自定义 iOS 键盘扩展时，如何创建一个与 Apple 原始退格键具有相同功能的按钮？

我正在制作一个自定义键盘其中有用于删除文本的删除按钮其代码是 func addDelete deleteButton UIButton buttonWithType System as UIButton deleteButton set
SSIS 将字符转换为布尔值/位

我有一个SSIS包来加载数据您可能还记得当我尝试将数据文件中的标志作为位标志加载到 SQL Server 中时这些标志作为 Y N char 1 存在我将数据文件中的列指定为String DT STR 我有一个数据转换任务根据以下
如何解析 Newtonsoft JSON 中的 TimeSpan 值

我想解析 JSON 字符串并使用token Type用于检测类型值的属性JTokenType TimeSpan 我无法弄清楚如何在输入字符串中表达 TimeSpan 所有内容似乎都被解释为 JTokenType String var tim
使用 calloc() 设置 char 数组，完成后还会“释放”数组

我正在尝试设置一个字符串数组在 C 语言中使用 Linux 该数组将容纳 11 个字符串静态长度我最初将数组设置为 char Answers 10 100 但在我的代码中我有一部分调用 fgets input sizeof inp
JSON - 使用Gson反序列化动态对象

假设我有一个以下类型的 Java 类 public class MyClass public String par1 public Object par2 然后我有这个 String json par1 val1 par2 subpar1
SLF4J - Logback：如何在运行时配置记录器？

我们在项目中使用 LogBack 我想根据一些数据库值配置记录器即如果某个数据库值设置为 true 则记录器应同时使用文件和数据库附加程序如果为 false 则记录器必须仅使用数据库附加程序我还想保留使用静态最终记录器因此我不会在每
PKG_CONFIG_PATH变量，编译RRDtool时如何设置LDFLAGS和CPPFLAGS

任务是在 Red Hat 衍生版本上安装 rrdtool 并且禁止使用 yum 或软件包将rrdtool的所有依赖项从源代码编译为单独的目录应用程序运行 sepatare folder 所以基本上我所看到的都是这样的 ls cair
iOS 版有 Parse.com 的替代品吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我目前使用 parse com 来管理用户他们有很棒的 AP I 有不错的后端供我管理东西但我更愿意托管我自己的数据服务器后端我可
强制重新应用变更列表

我对 perforce 还很陌生但有相当多的其他 VCS 经验想象一下您提交更改更改列表 1 一位同事在同一分支上提交更改意外地覆盖了您的更改变更列表 2 我尝试集成 P4V 拒绝这样做因为它已经集成并寻找一种方法来生成我可
在应用程序上按下类似按钮时自动刷新时间线页面？

在时间轴发布到页面上之前当用户在页面上按下点赞按钮时页面会自行刷新现在启用时间线后如果您访问应用程序并按右上角的类似按钮页面不会自行刷新并且应用程序不会识别用户喜欢该页面当用户按下喜欢按钮时是否有一种方法或事件
你使用什么样的类别方法来使Cocoa编程变得更容易？

我使用 Cocoa 内置类的一系列类别方法来让我的生活更轻松我将发布一些示例但我真的很想看看其他编码人员想出了什么有哪些方便的分类方法you using 示例 1 implementation NSColor MyCategories
获取couchdb数据库中所有文档的文档id

我有一个简单的问题我应该如何从 couchdb 中的给定数据库中检索所有文档的文档 ID 我编写了这段代码来检索所有文档 docs CouchRest get http localhost 5984 competency1 all doc
Pipenv-Error：ModuleNotFoundError：没有名为“pip._internal”的模块[重复]

这个问题在这里已经有答案了今天我通过安装了 Pipenv pip install pipenv 正如文档中提到的我进入测试目录并使用创建了一个新的虚拟环境 pipenv shell 并尝试通过安装包 pipenv install nu
找不到模块“node-sass”时出现错误

配置 macOS High Sierra 版本 10 13 2 节点 v8 1 2 npm 5 0 3 当我在 angularjs 项目中运行 npm start 时出现以下错误 ERROR in Cannot find module n
将数字格式化为包含逗号 (1000000 -> 1,000,000)

在 Bigquery 中我们如何格式化将成为结果集一部分的数字使其使用逗号格式化例如 1000000 到 1 000 000 以下是标准 SQL SELECT input FORMAT d input as formatted FRO
django查询集聚合计数计数错误

这是一个延续问题 Django查询集获取相对于其他列的不同列值 https stackoverflow com questions 52905220 django queryset get distinct column values wi
R 单个变量中的多重图

嗨我有下一个代码 par mfrow c 1 3 plot BCxyz 1 BCxyz 2 main Bray Curtis 1 2 pch 20 cex 3 col c blue green red yellow Metadata Sa
读取文件时如何从Python中的行分隔符中排除U+2028？

我有一个 UTF 8 格式的文件其中某些行包含 U 2028 行分隔符 http www fileformat info info unicode char 2028 index htm http www fileformat info

读取文件时如何从Python中的行分隔符中排除U+2028？

读取文件时如何从Python中的行分隔符中排除U+2028？ 的相关文章

随机推荐

热门标签

读取文件时如何从Python中的行分隔符中排除U+2028？的相关文章