获取 magic line / shebang 中指定的编码（从模块内）

2024-02-25

如果我指定字符编码（如建议的PEP 263 http://www.python.org/dev/peps/pep-0263/）在Python模块的“magic line”或shebang中，例如

# -*- coding: utf-8 -*-

我可以从该模块中检索此编码吗？

（使用 Python 2.7.9 在 Windows 7 x64 上工作）

我尝试（没有成功）检索默认编码或 shebang

# -*- coding: utf-8 -*-

import sys
from shebang import shebang

print "sys.getdefaultencoding():", sys.getdefaultencoding()
print "shebang:", shebang( __file__.rstrip("oc"))

将产生：

sys.getdefaultencoding(): ascii

谢邦：无

（与 ISO-8859-1 相同）

我想借用Python 3tokenize.detect_encoding()功能 https://hg.python.org/cpython/file/v3.5.2/Lib/tokenize.py#l357在 Python 2 中，进行了一些调整以符合 Python 2 的期望。我已经更改了函数签名以接受文件名，并删除了迄今为止读取的行；您的用例不需要这些：

import re
from codecs import lookup, BOM_UTF8

cookie_re = re.compile(r'^[ \t\f]*#.*?coding[:=][ \t]*([-\w.]+)')
blank_re = re.compile(br'^[ \t\f]*(?:[#\r\n]|$)')

def _get_normal_name(orig_enc):
    """Imitates get_normal_name in tokenizer.c."""
    # Only care about the first 12 characters.
    enc = orig_enc[:12].lower().replace("_", "-")
    if enc == "utf-8" or enc.startswith("utf-8-"):
        return "utf-8"
    if enc in ("latin-1", "iso-8859-1", "iso-latin-1") or \
       enc.startswith(("latin-1-", "iso-8859-1-", "iso-latin-1-")):
        return "iso-8859-1"
    return orig_enc

def detect_encoding(filename):
    bom_found = False
    encoding = None
    default = 'ascii'

    def find_cookie(line):
        match = cookie_re.match(line)
        if not match:
            return None
        encoding = _get_normal_name(match.group(1))
        try:
            codec = lookup(encoding)
        except LookupError:
            # This behaviour mimics the Python interpreter
            raise SyntaxError(
                "unknown encoding for {!r}: {}".format(
                    filename, encoding))

        if bom_found:
            if encoding != 'utf-8':
                # This behaviour mimics the Python interpreter
                raise SyntaxError(
                    'encoding problem for {!r}: utf-8'.format(filename))
            encoding += '-sig'
        return encoding

    with open(filename, 'rb') as fileobj:        
        first = next(fileobj, '')
        if first.startswith(BOM_UTF8):
            bom_found = True
            first = first[3:]
            default = 'utf-8-sig'
        if not first:
            return default

        encoding = find_cookie(first)
        if encoding:
            return encoding
        if not blank_re.match(first):
            return default

        second = next(fileobj, '')

    if not second:
        return default    
    return find_cookie(second) or default

和原来的函数一样，上面的函数读取两行max从源文件中，并且会引发SyntaxError如果 cookie 中的编码无效或不是 UTF-8，而存在 UTF-8 BOM，则会出现异常。

Demo:

>>> import tempfile
>>> def test(contents):
...     with tempfile.NamedTemporaryFile() as f:
...         f.write(contents)
...         f.flush()
...         return detect_encoding(f.name)
...
>>> test('# -*- coding: utf-8 -*-\n')
'utf-8'
>>> test('#!/bin/env python\n# -*- coding: latin-1 -*-\n')
'iso-8859-1'
>>> test('import this\n')
'ascii'
>>> import codecs
>>> test(codecs.BOM_UTF8 + 'import this\n')
'utf-8-sig'
>>> test(codecs.BOM_UTF8 + '# encoding: latin-1\n')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<stdin>", line 5, in test
  File "<string>", line 37, in detect_encoding
  File "<string>", line 24, in find_cookie
SyntaxError: encoding problem for '/var/folders/w0/nl1bwj6163j2pvxswf84xcsjh2pc5g/T/tmpxsqH8L': utf-8
>>> test('# encoding: foobarbaz\n')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<stdin>", line 5, in test
  File "<string>", line 37, in detect_encoding
  File "<string>", line 18, in find_cookie
SyntaxError: unknown encoding for '/var/folders/w0/nl1bwj6163j2pvxswf84xcsjh2pc5g/T/tmpHiHdG3': foobarbaz

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

encoding

characterencoding

获取 magic line / shebang 中指定的编码（从模块内）的相关文章

为什么需要在 Python 方法中显式使用“self”参数？ [复制]

这个问题在这里已经有答案了当在 Python 中的类上定义方法时它看起来像这样 class MyClass object def init self x y self x x self y y 但在其他一些语言中例如 C 您可以使用
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S

随机推荐

行排序时优化 Hive GROUP BY

我有以下非常简单 Hive 查询 select user id event id min time as start max time as end count as total count interaction 1 as clicks
如何以编程方式将 Swagger API 文档发布到 Atlassian Confluence？（Swagger Confluence工具和Confluence REST API的使用）

我正在尝试使用以下命令将我的 Swagger JSON 架构 myapi json 上传到 Atlassian Confluence 中 swagger https cloud slkdev net swagger confluence 合
PostgreSQL 的规则和 nextval()/串行问题（非常 PostgreSQL 特定）

当我使用重写规则将一个表中的插入拆分为对其他两个表的插入时其中插入的值之一具有默认的 nextval some sequence 两个表的序列相同则插入的默认值在两张桌子这可能是由于重写规则的简单文本替换所致相反我希望首先解析默认
如何使用 Java 获取 Solr 中的索引大小

我需要使用 Java 获取 Apache Solr 中索引的总大小以下代码获取文档总数但我正在查找大小通过使用 ReplicationHandler 我想我可以获得索引大小正如此链接上的某人所说的那样 http lucene 472
使用 fscanf 填充一个字符数组会更改另一个字符数组的值

我首先使用 fscanf 填充我的第一个数组然后再次使用同一输入文件中的 fscanf 填充另一个数组然而这似乎正在改变我的第一个数组中的值这是我的输入 4 abcd efgh ijkl mnop qrst uvwx yz12 34
C++中增量垃圾收集模拟的内存分配

我需要用 C 或 Java 模拟增量垃圾收集算法基于此我产生了疑问作为输入 stdin从键盘我将被要求为此代码分配一些内存语法是 x alloc 128KB 我的问题可以使用吗malloc为了任务或者还有其他的内存分配方式吗我
为什么可以通过重载决议来解决的程序因不明确而被拒绝？

以下程序因不明确而被 gcc 拒绝 struct Aint virtual void foo int struct Astring virtual void foo std string struct A public Aint publi
适用于 64 位 Windows 的 Thawte 驱动程序签名

如果这个问题偏离主题请推荐另一个 StackExchange 网站来发布此问题我公司最近从 Thawte 购买了 G2 代码签名证书我已经完成了签署 64 位驱动程序所需的所有步骤因此可以在 Windows 7 64 位下安装它也
添加新节点后如何重新平衡 cassandra 集群

我有一个 3 节点 cassandra 集群复制因子为 2 节点运行 dsc1 2 3 或 dsc1 2 4 每个节点的 num token 值为 256 并且initial token 被注释这个 3 节点集群完美平衡即每个节点拥有
选择一系列节点的 XPath 是什么？

我有一个 XML 文件其结构如下
手动启动 Xcode Bot 集成？

我正在观看 WWDC 2014 与 Xcode 的持续集成视频它看起来很棒如何使用机器人来运行测试但我的问题是任何看过该视频的人当他向 Jeeves 发送消息说集成 CoffeeBoard 时 Bot 开始集成我想知道他是怎么
一起使用 intl-tel-input 和 vuejs2

我正在尝试实施https github com jackocnr intl tel input https github com jackocnr intl tel input with vuejs2 如果我在一个 jQuery 中添加do
当包本地存储在 diff 文件夹中时，nuget 包项目引用是否会混乱？

当另一个开发人员从 TFS 中的存储库获取最新信息时解决方案中每个项目的引用似乎无法正确链接根据我的假设如果您使用 nuget 它会自动为您提取必要的库不是吗我是否必须进入 vs net 并告诉它下载库或者我是否在 TFS 中添
Flutter TextFormField 文本在溢出时隐藏

当我达到极限时文本表单字段文字消失我尝试了多个配置但仍然不起作用我不知道为什么 Dialog shape RoundedRectangleBorder borderRadius BorderRadius circular 6 0 thi
如何确定感兴趣区域，然后使用 OpenCV 裁剪图像

我问过类似的问题here https stackoverflow com questions 15690770 extracting text from an image with tesseract但这更多地集中在超立方体上我有一个示例
如何使用C获取类似于“ls -la”的文件信息？

我使用 ar h 来定义结构我想知道如何获取有关文件的信息并将其放入结构中指定的变量中 struct ar hdr char ar name 16 name of this member char ar date 12 file mtim
将 std::string 转换为 C 函数的 char* 时要注意什么？

我读过很多帖子询问如何转换 C std string or const std string to a char 将其传递给 C 函数似乎在执行此操作时有很多警告人们必须注意字符串是否连续以及许多其他事情关键是我从来没有真正理解人们需
为什么 JVM 的设计方式不允许强制垃圾收集？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案据我所知我们不能在JAVA中强制进行垃圾收集我们能做的最好的事情就是通过调用发送请求System gc or Runtime gc 这样做会
在多维数组中找到最大数组的快速方法？

情况我有一个元素数量可变的多维数组例如 array N 0 gt array 3 1 gt array 8 2 gt array 1 M gt array 12 N 1 gt array 7 我想找到这个子数组中元素的最大数量在上面的
获取 magic line / shebang 中指定的编码（从模块内）

如果我指定字符编码如建议的PEP 263 http www python org dev peps pep 0263 在Python模块的 magic line 或shebang中例如 coding utf 8 我可以从该模块中检索此编

获取 magic line / shebang 中指定的编码（从模块内）

获取 magic line / shebang 中指定的编码（从模块内） 的相关文章

随机推荐

热门标签

获取 magic line / shebang 中指定的编码（从模块内）的相关文章