解析不同的日期格式:正则表达式

2023-12-01

重新发布这个问题并附上具体细节(因为最后一个问题已被标记下来)。

我正在努力从档案卡中解析混乱的 (tesseract-ocr),以获取至少 50% 的信息 (date1)。数据行包含不同形式的日期,如下面的数据示例所示。

Raw_Text
1   "15957-8 . 3n v g - vw, 1 ekresta . bowker, william e tley n0 .qu v- l. c. 
    s. peteris, forestville, n. y. .mafae date1 june 17,1942 by davis, c. j6 
    l. g. b. jonnis, buffalo, n. y. ngsted decl 17, 1949.3y 7 davis, c. j. 
    date3 by j date4 - by date5 by 6 -.5/, 7/19/l date6 17 jul 1916 salamanca. 
    hf date7 31 dec 1986 buffalo, new york "
2   ".1o2o83n5ddn.. -i ekresta i bowles, albert edwin i made date1 june 9p1909 
    by parker, elm. date2 dec . 18 w date3 . by dep osed by date5 by date7mqm 
    9 ivvld wm 4144, mac, .75 076 eaqlwli "
3   "i naime bowles, charles edward made date1 may 31. 1892 by mclaren, wneoi 
    date2 may 18. 1895 by mclaren, w.e. date3 . i by date4 may 10. 1908 by 
    bip. of chicago. date5 by date7 "
4   "101 557 am l i ekrestaibowles, donald manson ..46 ohio trlnlty cathedral, 
    cleveland, ohio made date1 6/19/76 by burt, ji. h. grace , cleveland, ohio 
   date2 11 jun 77 by bp j h burt date3 . 1 .. by date4 by date5 bv m cuyahoga 
   heights, ohio date6 4/29/27 date7 240000 "
5   "227354 101 575 m68, frederick augustus st. paujjs cathedral, buffalo, 
   n.y. made date1 6/15/63 by scaife. l.i... st. thomas. modia, bath, n.y. 
   date2 1/11/611 by scaife. l.eo date3 by date4 by date5 by bradford, n.y. i 
   . 130m 6/1/18 date7 17 jun 1996 foratvme new york z4uc-xl "
6   "1 95812d ll. il ekresta bowles, harry oscar lmade date14 july 17, 190433, 
    lepnard, w.a. date2 july 25 , 1905 by leonard, w.a. i date3 by date4 by 
   date5 by g- m. /(,,/mr date7 jay /z/,. /357i l /mwi yk/maj. "
7   "5025 ,.. 2.57631 il . - . .. .1 i ekresta bowles , jedwiah hibbafd made 
    deac0n 8., i5-0i1862i13y potter, iih. date2 10. 280 1864 1 biy stevens, w. 
    b. date3 by date4 7 .30 l 1875 by date5 by date7 "
8   "30.611126 ekhq il ekresta bowles, ralph hart made date1 12. 210 i1883 by 
    iwiiiliams, i36 date2 7.. 1. 1885 by williams , j. date3 by i date4 by 
    date5 by g .97) l/am 9- date7 10. 4. 1900 (78) if x/ma 3.4, 154.47.11.73. 
    4,... mya-ix "
9   "2.25678 . 1o14593 ekresta bowles, robert brigham, jr. st. matthew s 
    cathedra1,da11quexas made date1 6/18/65 by mason, c. a. 57 mmzws camp 
    dr7///9s tams date2 12 21 cs by 14.45.42 c a date3 i by date4 by date5 , 
    by houston, texas date6 4/11/30 date7 12 dec 2000 dallas texas 2400-xi "
10  "101 619 34hq woe ekresta bowlin1 howard bruce cathedral modia of saint 
    peter 61 st. paul, washin ton, dc made date1 13 jun 92 bybp r h haines 
   (wdc st. alban1s modia, annandale, vir inia . pdumd 16 jan 93 by r h halnes 
    (wdc) date3 by atas by date4 v by date5 by date6 31 aug 1946 e st. louis. 
   il date7 2400-i "
11  "w k8 8km tm boiling jack dnnmwm q- f grace ch , made dat j 11201). salem 
    mares. stverrett. f. ,w a x st. johms modia. memphis, tenh. date1 apr. 25. 
    1955 - bv barth, t.in.. date3 4 by date4 by date5 by date7 wq iw r 1 w .n 
    . 4.1- 1 date6z1l7i1c. "

我通过两步过程解析 date1, - 1. 解析名称“date1”和“by”之间的文本 - 2.使用日期解析器提取实际日期

import re
import dateutil.parser as dparser
for lines in Raw_Text:
    lines = lines.lower() #make lower case
    lines = lines.strip() #remove leading and ending spaces
    lines = " ".join(lines.split()) #remove duplicated spaces



    # Step 1
    #Extract data between "date1" and "by"
    deacondt = re.findall(r'date1(.*?)by',lines)

    deacondt = ''.join(deacondt)  #Convert list to a string


    # Step 2
    # use dateutil to parse dates in extracted data

    try:
        deacondt1 = dparser.parse(deacondt)
    except:
        deacondt1 = 'NA'

    print deacondt1

步骤 1 的输出为,

[' june 17,1942 ']
[' june 9p1909 ']
[' may 31. 1892 ']
[' 6/19/76 ']
[' 6/15/63 ']
['4 july 17, 190433, lepnard, w.a. date2 july 25 , 1905 ']
[]
[' 12. 210 i1883 ']
[' 6/18/65 ']
[' 13 jun 92 ']
[]

而步骤 2 返回以下输出

2018-06-17 00:00:00
1909-06-17 21:00:00
1892-05-31 00:00:00
1976-06-19 00:00:00
2063-06-15 00:00:00
NA
NA
NA
2065-06-18 00:00:00
1992-06-13 00:00:00
NA

第 2 步未能给出所有日期。 Python 2.7 是否有比“dateutil.parser”更好的日期解析器?


你可以试试这个,

deacondt1 = dparser.parse(deacondt, dayfirst=False, fuzzy=True)
  • fuzzy– 允许字符串包含un-dateformat这样的词 ”Today is January 1, 2047 at 8:21:00AM”.
  • dayfirst=False means month-first date-format输入像你一样的字符串。

但这还不足以dateutil-parser要提取所需的输出,因此需要将更近似的日期格式字符串传递给解析器。

Regex提取有关的字符串date1

(?s)date1\d?((?:(?!by|date2|date3).)*)

Demo, 其中不仅 'by' 但是也 'date2' and 'date3' 用作separator and date10~date19被视为date1.

然后,对提取的字符串进行操作(删除前导和尾随空格等)以获得 date-util 解析器可接受的输入。

regx= re.compile(r'(?s)date1\d?((?:(?!by|date2|date3).)*)')
raw_date= [re.sub(r'(?i)(?<=\s)[a-z]?(\d{4}|\d{2})\d*', r'\1', re.sub(r'\s+|,|(?<=\d)[^\d\s\/](?=\d)',' ', re.sub(r'^\s+|\s+$|\n+','', m))) for m in regx.findall(Raw_Text)]

for deacondt in raw_date: 
    try:
        deacondt1 = dparser.parse(deacondt, dayfirst=False, fuzzy=True)
    except:
        deacondt1 = 'NA'

print(deacondt +"\n"+ str(deacondt1))

Output

june 17 1942
1942-06-17 00:00:00
june 9 1909
1909-06-09 00:00:00
may 31. 1892
1892-05-31 00:00:00
6/19/76
1976-06-19 00:00:00
6/15/63
2063-06-15 00:00:00
july 17  1904  lepnard  w.a.
1904-07-17 00:00:00
12. 21 1883
1883-12-21 00:00:00
6/18/65
2065-06-18 00:00:00
13 jun 92
1992-06-13 00:00:00
apr. 25. 1955 - bv barth  t.in..
1955-04-25 00:00:00
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

解析不同的日期格式:正则表达式 的相关文章

随机推荐

  • MVC 6 EF 7 属性的列表框未填充

    我已经尝试了一段时间来填充列表框 但我似乎无法弄清楚 我已经相当广泛地研究了实体框架 7 文档 但我对它仍然很陌生 目前还没有很多针对 MVC6 EF7 的教程 因此很难知道将一个实体类与另一个实体类的实例关联的最佳实践是什么 请原谅问题的
  • Silverstripe 管理员:“有一个”下拉列表在导入后转换为普通输入字段

    我在 Silverstripe 的管理方面遇到一些问题 我定义了一个数据库模型 请参阅下面的类定义 在进行开发 构建后 一切都按预期进行 当我尝试添加新的 包 时 所有 有一个 字段都带有下拉菜单 参见屏幕截图 1 我还构建了一个导入这些包
  • 如何在 Javascript 中获取一天的开始和结束?

    如何以时间戳 GMT 获取今天的开始 00 00 00 和结束 23 59 59 计算机使用当地时间 var start new Date start setUTCHours 0 0 0 0 var end new Date end set
  • 无法使用我的 Digital Ocean Droplet 的 IP 地址访问我的网站

    我正在将我的 MERN 应用程序部署到 Digital Ocean Droplet Ubuntu 20 04 服务器 我已经克隆了我的 GitHub 存储库 安装了依赖项和 pm2 I start the server using the
  • XSLT 1.0 无法翻译撇号

    我的 XML 中有以下内容
  • Windbg设置条件断点

    我想在windbg中放置一个条件断点 例如 我们可以说 LoadLibrary API 我怎样才能设置断点 以便在加载 user32 dll 时就应该设置断点 gt x kernel32 LoadLibraryW 它将给出一些地址 XXXX
  • 跨类型转换维护计量单位

    如果我们定义一个测量单位 例如
  • Android:查找内存泄漏的工具? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 有没有一些有用的工具可以检测 Android Java 应用程序中的内存泄漏 类似于 Valgrind 的东西 其中显示了非释放对象的创建位置 看这
  • 在 Liferay 6.2 中使用 Bootstrap 3.3.6

    我正在 Liferay 6 2 中使用 Bootstrap 3 我在CSS和JS中插入了bootstrap css和bootstrap min js 我还更改了 custom css 中的一些样式 incompatilibilidad 你对
  • 如何更改面板的 BorderStyle?

    我有一个面板System Windows Forms Panel 有财产 BorderStyle FixedSingle 它以灰色边框渲染 I need 如果可能的话 能够设置边框的颜色和厚度 我很想知道是否也可以完全隐藏边界 知道如何解决
  • 使用 scikit-image 和 RANSAC 稳健估计多项式几何变换

    我想用 scikit image skimage transform 和 skimage measure ransac 稳健地估计多项式几何变换 ransack 文档提供了一个非常好的示例 说明如何通过相似性变换来实现这一点 事情是这样的
  • 需要特定字符串作为 TypeScript 界面中的可选键

    我遇到过这样的情况 我可以将许多可选的 T 恤大小的道具添加到一个对象中 有没有办法定义一个类型并将其设置为接口中可选键的类型 type Size xxs xs s m l xl xxl interface Sizes key Size s
  • matlab中如何读取文件夹中的图像

    我有六个这样的文件夹 gt gt Images每个文件夹都包含一些图像 我知道如何在 matlab 中读取图像 但我的问题是如何遍历这些文件夹并读取 abc m 文件中的图像 此文件显示在image 所以基本上你想读取不同文件夹中的图像 而
  • 如果字符超过一定限制,如何修剪元素的内容并添加“...”?

    我想修剪一部分 td 如果太长 这将确保桌子不会弄乱 下表中的所有数据均从数据库中检索 在 主题 部分 如果文本超过一定的字符限制 如何缩短文本并添加 这是该表的屏幕截图 正如您所看到的 如果主题太长 可能会弄乱表格 是否有任何 jQuer
  • 自定义寻呼机模板

    默认分页器机制在最后一行插入一个表格 然后该表格包含一行 其中包含所需数量的包含页码的单元格 我将页面模式设置为数字 我不想创建一个嵌套表格 而是创建一个由小方形 div 组成的分页模板 这些小方形 div 浮动在彼此的左侧 每个框中都有页
  • Swift 3 核心数据删除对象

    不幸的是 新的核心数据语义让我发疯 我之前的问题有一个干净的代码 但由于头文件的自动生成不正确而无法工作 现在我继续删除对象的工作 我的代码看起来很简单 func deleteProfile withID Int let fetchRequ
  • 不区分大小写的搜索并用 sed 替换

    我正在尝试使用 SED 从日志文件中提取文本 我可以毫不费力地进行搜索和替换 sed s foo bar mylog txt 但是 我想让搜索不区分大小写 从我用谷歌搜索到的内容来看 它看起来像是附加i到命令结束应该有效 sed s foo
  • 拆分包含音频的 CMSampleBufferRef

    我在录制时将录音分成不同的文件 问题是 captureOutput 视频和音频样本缓冲区不对应 1 1 这是合乎逻辑的 void captureOutput AVCaptureOutput captureOutput didOutputSa
  • 如何在div悬停时隐藏视频?

    我试图在 div 悬停时隐藏视频 但我似乎无法使其工作 目前 live video 类位于顶部 eat video 位于下方 我想在悬停 video hover 类时隐藏 live video 的显示 我想要实现的是 2 个全屏视频堆叠在一
  • 解析不同的日期格式:正则表达式

    重新发布这个问题并附上具体细节 因为最后一个问题已被标记下来 我正在努力从档案卡中解析混乱的 tesseract ocr 以获取至少 50 的信息 date1 数据行包含不同形式的日期 如下面的数据示例所示 Raw Text 1 15957