如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？

2024-04-21

我需要 Python_dateutil 1.5parse() http://labix.org/python-dateutil#head-a23e8ae0a661d77b89dfb3476f85b26f0b30349c使用 Unicode 月份名称。

如果使用 fuzzy=True 它会跳过月份名称并生成月份 = 1 的结果

当我在没有模糊参数的情况下使用它时，我得到下一个异常：

from dateutil.parser import parserinfo, parser, parse

class myparserinfo(parserinfo):
    MONTHS = parserinfo.MONTHS[:]
    MONTHS[3] = (u"Foo", u"Foo", u"Июнь")


>>> test = unicode('8th of Июнь', 'utf-8')
>>> tester = parse(test, parserinfo=myparserinfo())
Traceback (most recent call last):
  File "<console>", line 1, in <module>
  File "C:\Python27\lib\site-packages\python_dateutil-1.5-py2.7.egg\dateutil\parser.py", line 695, in parse
    return parser(parserinfo).parse(timestr, **kwargs)
  File "C:\Python27\lib\site-packages\python_dateutil-1.5-py2.7.egg\dateutil\parser.py", line 303, in parse
    raise ValueError, "unknown string format"
ValueError: unknown string format

Rik Poggi 是对的，字符串 'Июнь' 不能是一个月python-dateutil。深入挖掘一下dateutil/parser.py，基本问题是该模块的国际化程度仅足以处理西欧拉丁文字语言。它的设计目的不是能够处理使用非拉丁文字（例如西里尔字母）的语言（例如俄语）。

最大的障碍在于dateutil/parser.py:45-48，其中词法分析器class _timelex定义可以在标记中使用的字符，包括月份和日期名称：

class _timelex(object):
    def __init__(self, instream):
        # ... [some material omitted] ...
        self.wordchars = ('abcdfeghijklmnopqrstuvwxyz'
                          'ABCDEFGHIJKLMNOPQRSTUVWXYZ_'
                          'ßàáâãäåæçèéêëìíîïðñòóôõöøùúûüýþÿ'
                          'ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞ')
        self.numchars = '0123456789'
        self.whitespace = ' \t\r\n'

Because wordchars不包括西里尔字母，_timelex将日期字符串中的每个字节作为单独的字符发出。这是瑞克观察到的。

另一个很大的障碍是dateutil在内部使用 Python 字节字符串而不是 Unicode 字符串进行所有处理。这意味着，即使 _timelex 被扩展为接受西里尔字母，那么字节和字符的处理之间仍然会存在不匹配，以及调用者和调用者之间的字符串编码差异导致的问题。python_dateutil源代码。

还有其他一些小问题，例如假设每个月份名称至少有 3 个字符长（对于日语而言并非如此），以及许多与公历相关的细节。这将有助于wordchars从中选取的字段parserinfo如果存在，则 parserinfo 可以为其月份和日期名称定义正确的字符集。

python_dateutilv 2.0已经移植到Python 3，但是上述设计问题并没有明显改变。 2.0 和 1.5 之间的差异是处理 Pyhon 语言的更改，而不是 dateutil 的设计和数据结构。

Oleg，您能够修改 parserinfo，我怀疑您成功了，因为您的测试代码没有使用parser() (and _timelex) of python_dateutil。您实质上提供了自己的解析器和词法分析器。

纠正这个问题需要对文本处理进行相当大的改进python_dateutil。如果有人针对该更改制作补丁，并且包维护者能够将其合并，那就太好了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？的相关文章

Pandas 将行中的非空值获取到一个单元格中[重复]

这个问题在这里已经有答案了给定以下数据框 a pd DataFrame A 1 2 B 4 0 C 1 2 a A B C 0 1 4 1 1 2 0 2 我想创建一个新专栏D包含由列分隔的非空值每行像这样 A B C D 0 1 4
为什么Python有最大递归深度？

Python有最大递归深度但没有最大迭代深度为什么递归受到限制把递归当成迭代来对待而不限制递归调用的次数不是更自然吗我只想说这个问题的根源来自于尝试实现流参见这个问题 https stackoverflow com questi
python中热图的层次聚类

我有一个 NxM 矩阵其值范围为 0 到 20 我可以使用 Matplotlib 和 pcolor 轻松获得热图现在我想使用 scipy 应用层次聚类和树状图我想重新排序每个维度行和列以显示哪些元素相似根据聚类结果如果矩阵是方
静态文件配置不正确

我已经在 Heroku 上部署了简单的博客应用程序它运行在Django 1 8 4 我在静态文件方面遇到了一些问题当打开我的应用程序时我看到Application Error页面所以我尝试调试它并发现当我提交到 Heroku 时它无
引发 RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 导入 fitz 时目录 'static/' 不存在

当我运行 extract img py 文件时出现此错误 RuntimeError f 目录 directory 不存在运行时错误导入 fitz 时不存在目录 static 我不明白为什么这会给我发回此错误消息我之前看到过关于这个话题
在 Python 3 中动态导入模块的问题

我遇到的情况是在我的 Python 3 项目中在运行时必须包含某些模块我在用着importlib import module为了这第二次更新我确实找到了一种方法来做一些接近我想要的事情一些额外的代码可能会使我的一些链接稍微偏离一
Python 使用 M2Crypto 通过 S/MIME 对消息进行签名

我现在花了几个小时但找不到我的错误我想要一个简单的例程来创建 S MIME 签名消息稍后可以与 smtplib 一起使用这是我到目前为止所拥有的 usr bin python2 7 coding utf 8 from future
在加载“cv2”二进制扩展期间检测到递归

我有一个小程序在 pyinstaller 编译后返回 opencv 错误但无需编译即可工作我在 Windows 10 上使用 Python 3 8 10 Program 导入 pyautogui将 numpy 导入为 np导入CV2
Python 字典 - 在 2 个字符的字符串中查找第二个字符，该字符产生最小值

我想提交密钥的第一部分并返回该密钥的剩余部分以最小化值并从第一部分开始例如 d ab 100 ac 200 ad 500 如果我要进去 a I would like to return b min d s s for s in d i
Pyinstaller --onefile 警告文件已存在但不应存在

跑步时Pyinstaller onefile 并开始得到结果 exe 会出现多个弹出窗口并显示以下警告 WARNING file already exists but should not C Users myuser AppData L
Selenium：等到 WebElement 中的文本发生变化

我在用着selenium使用Python 2 7 从网页上的搜索框检索内容搜索框动态检索结果并在框本身中显示结果 from selenium import webdriver from selenium webdriver common
在ansible中合并字典

我目前正在构建一个使用 ansible 安装 PHP 的角色并且在合并字典时遇到一些困难我尝试了多种方法来做到这一点但我无法让它像我想要的那样工作 A vars file my default values key value my
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
管理文件字段当前 url 不正确

在 Django 管理中只要有 FileField 编辑页面上就会有一个当前框其中包含指向当前文件的超链接但是此链接会附加到当前页面 url 因此会导致 404 因为不存在这样的页面例如 http 127 0 0 1 8000
为 Python 2.4 改进“with”语句的直接替换

您能否建议一种方法来编写可在 Python 2 4 中使用的 with 语句的直接替换代码这将是一个 hack 但它可以让我更好地将我的项目移植到 Python 2 4 EDIT 删除了不相关的元类草图只需使用 try finally
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
如何动态创建 Luigi 任务

我正在为 Luigi Tasks 构建一个包装器但遇到了一个障碍Register http luigi readthedocs io en stable modules luigi task register html Register该

随机推荐

在Python中从字典中删除某些键的最快方法

我正在寻找删除 python 字典中某些键的最快有效的方法这里有一些选项 for k in somedict keys if k startswith someprefix del somedict k or dict k v for
在 python 中对列表进行排序

我的目标是对字符串列表进行排序其中单词必须按字母顺序排序除了以 s 开头的单词应该位于列表的开头它们也应该排序然后是其他单词下面的函数为我做到了这一点 def mysort words mylist1 sorted i for i
Pjsip iOS 如何将声音传输到接收端并录制？

func startSipRecording caller String callid pjsua call id gt started Bool startDate NSDate var status pj init if status
如何使用 Doctrine Annotations 更改实体子类中的列名称？

我正在将 FOSUserBundle 与一个新的 Symfony 项目一起使用该项目必须使用现有架构我的用户实体按照说明扩展了 FOS UserBundle Entity User 但电子邮件列被命名为 email addr 而不是 e
如何使用 Javascript 删除 Monaco 编辑器的默认 DOM/浏览器相关自动完成功能？

我使用 Monaco 进行 JavaScript 对象文字创建其中我只需要基本类型完成再加上自定义类型完成使用 monaco languages registerCompletionItemProvider javascript 当我
无法在“app”中找到应用程序对象“服务器”

我正在尝试使用 Heroku 提供 Dash 应用程序我的应用程序中有 5 个文件 gitignore venv pyc DS Store env app py import os import dash import dash core
这个指针算术是如何工作的？

include
找到子对象的最大值

在 javascript 中查找子对象的最大值的优雅方法是什么 Example 找到该对象的最大数量值此处显示为 json density price 1 22837 quantity 48201 price 1 39837 quanti
MS Access 查询，如何使用 SQL 将单个日期分组为周

我目前有两张桌子其中有员工姓名和与该姓名相关的号码另一个日期有时间表日期其中包含员工编号日期和该日期的工作小时数列我想创建一个交叉表查询该查询在一列中显示员工姓名在每列中显示周末的日期然后显示特定员工该周的小时数总和我当前
Chrome 浏览器中日期字段不显示值

我在 Chrome 浏览器中绑定日期值时遇到问题我的剃刀视图定义如下
为 Play websockets 编写单元测试

我正在使用 websockets 开发 Scala Play 应用程序我有一个简单的网络套接字定义如下 def indexWS WebSocket using String request gt val out Enumerator He
从事件处理程序执行主线程中的方法

我有一个继承自 Queue 类的自定义 Queue 类它有一个事件 ItemAdded 在此事件的事件处理程序中我正在执行一个方法但它正在主线程之外运行尽管我希望它在主线程中我不知道该怎么做有什么建议吗 My custom cl
使用拼凑将组合子图（拼凑？）注释为单个图

我试图弄清楚如何注释组合拼凑物就好像它们是单独的图一样我有一个由三个组合图和另一个单个图组成的拼凑而成最终的复合图是顶部的第一个拼凑物和底部的单独图我没有问题得到我想要的布局但是当我使用plot annotation 它为每个图提
sql server中的小数点四舍五入

SQL Server 2008 是否可以向下舍入例如 96855四舍五入为 968 IE 最多 0 96899 我想通过避免休息来舍入 0 96899 SELECT round 0 96855 3 1 gt 0 96800 对于 0 96
经典的 asp/asp.net 网站 - global.asa 不工作

最近我得到了一个用经典 ASP 编写的网站来配置和设置尽管它似乎也有用 ASP NET 编写的页面我目前遇到的问题是它似乎没有从 global asa 文件中获取设置例如 Application ConnectionString 当我
Bash 颜色可变输出

我有一个变量比方说 x它的值是website com 我希望能够调用该变量并向其应用外壳颜色如下所示 echo e 033 1 32m x 033 0m 问题不在于颜色而在于脚本解释输出的方式所以我得到的输出是 x 我需要输出显然是
等待 Swift 中的异步操作完成

我不知道如何处理这种情况因为我对 iOS 开发和 Swift 非常陌生我正在像这样执行数据获取 func application application UIApplication performFetchWithCompletionH
升级到 AnonymousTraversalSource (Gremlin 3.3.5+ Node.js)

我正在 Lambda Nodejs12 x 中编写代码我想更新到未弃用的连接方式 const gremlin require gremlin const DriverRemoteConnection gremlin driver Driv
Android - 在 AsyncTask 中执行后

我目前有一个asyncTask在预执行时启动一个加载栏在后台向服务器发送一些内容在执行后关闭对话框并启用一个按钮但是由于 doInBackground 返回 null 我的后执行未执行我试图弄清楚我能做些什么来让 postExec
如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？

我需要 Python dateutil 1 5parse http labix org python dateutil head a23e8ae0a661d77b89dfb3476f85b26f0b30349c使用 Unicode 月份名称

如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？

如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？ 的相关文章

随机推荐

热门标签

如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？的相关文章