在python中检测文本中的缩写

2024-03-10

我想在文本中找到缩写并将其删除。我目前正在做的是识别连续的大写字母并将其删除。

但我发现它并没有删除缩写,例如MOOCs, M.O.O.C, M.O.O.Cs。在 python 中是否有一种简单的方法可以做到这一点?或者有什么库可以代替吗?


The re正则表达式库可能是完成这项工作的工具。

为了删除每串连续的大写字母,可以使用以下代码:

import re
mytext = "hello, look an ACRONYM"
mytext = re.sub(r"\b[A-Z]{2,}\b", "", mytext)

在这里,正则表达式"\b[A-Z]{2,}\b"搜索多个连续的(由[...]{2,}) 大写字母 (A-Z),形成一个完整的词(\b...\b)。然后用第二个字符串替换它们,"".

正则表达式的便利之处在于它可以轻松地针对更复杂的情况进行修改。例如:

mytext = re.sub(r"\b[A-Z\.]{2,}\b", "", mytext)

将替换连续的大写字母和句号,删除 A.B.C.D 等缩写词。还有ABCD。这\之前.是必要的,因为.else 被正则表达式用作一种通配符。

The ?说明符还可用于删除以 s 结尾的首字母缩略词,例如:

mytext = re.sub(r"\b[A-Z\.]{2,}s?\b", "", mytext)

此正则表达式将删除诸如 ABCD、A.B.C.D 甚至 A.B.C.D 之类的首字母缩略词。如果需要删除其他形式的首字母缩写词,可以轻松修改正则表达式以适应它们。

The re库还包括 findall 或 match 函数等函数,它们允许程序单独定位和处理每个首字母缩略词。例如,如果您想要查看要删除的首字母缩略词列表并检查其中是否有合法单词,这可能会派上用场。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在python中检测文本中的缩写 的相关文章

  • 使用Python的工业视觉相机[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 根据 pandas 中的条件交换列值

    我想按条件重新定位列 如果国家 地区是 日本 我需要将姓氏和名字反向重新定位 df pd DataFrame France Kylian Mbappe Japan Hiroyuki Tajima Japan Shiji Kagawa Eng
  • 为什么方法无法访问类变量?

    我试图理解Python中的变量作用域 除了我不明白为什么类变量不能从其方法访问的部分之外 大多数事情对我来说都很清楚 在下面的例子中mydef1 无法访问a 但如果a可以在全局范围 类定义之外 声明 class MyClass1 a 25
  • 如何用spaCy获取依赖树?

    我一直在尝试寻找如何使用 spaCy 获取依赖树 但我找不到任何有关如何获取树的信息 只能在如何导航树 https spacy io usage examples subtrees 如果有人想轻松查看 spacy 生成的依赖关系树 一种解决
  • DataFrame 中的字符串,但 dtype 是对象

    为什么 Pandas 告诉我我有对象 尽管所选列中的每个项目都是一个字符串 即使在显式转换之后也是如此 这是我的数据框
  • 如何从网站中提取冠状病毒病例?

    我正在尝试从网站中提取冠状病毒 https www trackcorona live https www trackcorona live 但我得到了一个错误 这是我的代码 response requests get https www t
  • 为 PyCharm 中的所有配置设置相同的环境变量

    我有一个与 Celery 和很多不同的工作人员一起的项目 如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行 调试配置 有什么方法可以在项目设置中设置它们吗 找到解决方案here https stackoverflow com
  • 使用 Python 中的 IAM 角色访问 AWS API Gateway

    我有一个 AWS API 网关 我想使用它来保护其安全IAM 角色 http docs aws amazon com apigateway latest developerguide permissions html 我正在寻找一个包来帮助
  • 一起使用 Argparse 和 Json

    我是 Python 初学者 我想知道 Argparse 和 JSON 是否可以一起使用 说 我有变量p q r 我可以将它们添加到 argparse 中 parser add argument p param1 help x variabl
  • 熊猫记忆

    我有冗长的计算 我重复了很多次 因此 我想使用记忆 诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
  • 这可能是因为 cuDNN 初始化失败,因此请尝试查看上面是否打印了警告日志消息。 [操作:Conv2D]

    我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包 然后运行我的 CNN 模型时 它工作正常 但当我尝试运行训练模型时 出现错误 这是我的错误报告 Epoch 1 50 UnknownError Tr
  • 从 python 中的缩进文本文件创建树/深度嵌套字典

    基本上 我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中 其结构由每行开头的空格数量定义 本质上 目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
  • 如何获取 Matplotlib 生成的散点图的像素坐标?

    我使用 Matplotlib 生成散点图的 PNG 文件 现在 对于每个散点图 除了 PNG 文件之外 我还会also就像生成散点图中各个点的像素坐标列表一样 我用来生成散点图 PNG 文件的代码基本上是这样的 from matplotli
  • Matplotlib 将颜色图 tab20 更改为三种颜色

    Matplotlib 有一些新的且非常方便的颜色图 选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
  • Python time.sleep - 永不醒来

    我认为这将是那些简单的问题之一 但它让我感到困惑 停止媒体 我是对的 找到了解决方案 查看答案 我正在使用 Python 的单元测试框架来测试多线程应用程序 很好而且很直接 我有 5 个左右的工作线程监视一个公共队列 以及一个为它们制作工作
  • 在 Python 中,如何获取特定文件中定义的类列表?

    如果一个文件myfile py包含 class A object Some implementation class B object Some implementation 我如何定义一个方法 以便在给定的情况下myfile py 它返回
  • 向伪 shell (pty) 发出命令

    我尝试使用 subprocess popen os spawn 来运行进程 但似乎需要伪终端 import pty master slave pty openpty os write master ls l 应该发送 ls l 到从属终端
  • 如何表示类的实例与将其作为输入的类之间的关系?

    我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
  • 本地设置的 Cython 编译器指令是否影响一个或所有函数?

    我正在努力使用 Cython 加速一些 Python Numpy 代码 并且对 本地 设置 如定义的here http docs cython org en latest src reference compilation html在文档中
  • Melt() 函数复制数据集

    我有一个这样的表 id name doggo floofer puppo pupper 1 rowa NaN NaN NaN NaN 2 ray NaN NaN NaN NaN 3 emma NaN NaN NaN pupper 4 sop

随机推荐

  • 可以在 Javascript 中同步检查 Firebase 3 身份验证状态吗?

    目前 我的应用程序正在利用授权状态更改回调来指示在我的应用程序中的授权部分和主页部分之间移动 注意 我没有使用 AngularFire 在 Firebase 3 中有firebase auth currentUser但是 如果 fireba
  • RESTful系统中一次请求多条记录

    我见过的有关 RESTful 架构的所有示例都处理单个记录 例如 一个 GET 请求mydomain com foo 53获取 foo 53 或 POST 到mydomain com foo创建一个新的 Foo 但如果有多条记录呢 能够通过
  • Nodemon 和/或使用 Node-React Web 应用程序进行热重载

    在使用 webpack 配置 Web 应用程序以创建最佳开发体验方面 我还很陌生 我参加了两门不同的 Node React 课程 一门我们使用 nodemon 来跟踪更改 另一门我们实现热重载 当涉及到这两种依赖关系时 是一个还是另一个呢
  • 在 C# 中使用 Marshal.StructureToPtr 将结构传递给 C++ API

    我在我的代码中使用用 C 编写的 API 用 C 编写 API 需要一个参数作为结构指针 该结构由 Int 和 Char 数组组成 例如 unsafe public struct ToBePassed Int32 Num1 Int32 Nu
  • 如何使用Python ping ip并仅获取Tk中的ms?

    我想制作一个小 tk 应用程序 连续 ping 一个 ip 并且只显示 MS 例如 10ms 我该怎么办 如果您想使用 Windowsping 您必须解析命令行的输出 这是非常具体的 但应该有效 import os while 1 ping
  • 转换 Java 函数式接口

    一如既往 我浏览 JDK 8 源代码并发现了非常有趣的代码 Override default void forEachRemaining Consumer
  • 手动创建 Git 分支

    如果我理解分叉 它在概念上涉及以下步骤 将源存储库镜像克隆到目标存储库 在目标存储库上设置 上游 远程 指向源存储库 其他一些东西 例如电子邮件订阅等 对于这个问题并不重要 它是这样的 Original lt upstream Forked
  • 使用 Elasticsearch 搜索 Mysql 表

    假设我有以下 费用 MySQL 表 id amount vendor tag 1 100 google foo 2 450 GitHub bar 3 22 GitLab fizz 4 75 AWS buzz 我正在构建一个 API 该 AP
  • 当我使用 is 运算符时,为什么 IL 代码中只有空检查?

    我想知道怎么样is operator实施于C 我写了一个简单的测试程序 没什么特别的 只是为了演示目的 class Base public void Display Console WriteLine Base class Derived
  • 在函数内部使用 php 命名空间

    尝试在我自己的函数中使用名称空间时出现解析错误 require var load php function go use test Class go ok return go echo go From 导入范围规则 http php net
  • Delphi 中 WideString 的 WrapText

    德尔福有一个WrapText http docwiki embarcadero com VCL en SysUtils WrapText功能 function WrapText const Line BreakStr string cons
  • 在“SELECT”标签中呈现“OPTION”的层次结构

    我的问题与 HTML 和 CSS 相关 我有一个层次结构类型的结构 我想在列表中显示 该层次结构包含国家 州和城市 共三层 我想在选择列表中显示列表 每个项目类型 国家 州 城市 必须可选 这些项目应缩进为 United States Ha
  • Chrome 中有时会跳过 CSS 过渡

    我想将鼠标悬停在图像上时使用旋转动画翻转图像 请参阅下面的代码 当鼠标悬停在图像上时 它会绕 x 轴旋转一秒钟 当鼠标离开图像时返回 动画在 Firefox 和 Safari 中按预期工作 然而 Chrome有时会跳过动画并立即翻转图像 我
  • 使用 pandas dataframes data python 创建堆叠直方图

    我正在尝试使用来自 2 个或更多不均匀的 pandas 数据帧的数据创建堆叠直方图 到目前为止 我可以让它们在彼此之上绘制图表 但不能堆叠 import pandas as pd import matplotlib pyplot as pl
  • 我什么时候应该在 Python 中使用类型检查(如果有的话)?

    我开始学习 Python 作为一名主要的 Java 开发人员 我遇到的最大问题是了解何时以及何时不使用类型检查 大多数人似乎都说 Python 代码不需要类型检查 但在很多情况下我认为这是必要的 例如 假设我需要使用方法参数来执行算术运算
  • jQuery 模态表单对话框回发问题

    我创建了一个jQuery用户界面 http en wikipedia org wiki JQuery UI模式形式 我希望该形式触发回发 但我很难让它工作 我知道有很多文章是基于使用 SimpleModal 插件的 我尝试过调整这些并覆盖
  • 在python中获取组合框的值

    我正在开发一个简单的程序 我需要从Combobox 当Combobox位于第一个创建的窗口中 但例如如果我有两个窗口并且Combobox在第二个中 我无法从中读取值 例如 from tkinter import from tkinter i
  • 带 Sinch VOIP 的 Pushkit 无法与 Pushkit 配合使用

    我正在尝试在我的 IOS 应用程序中使用 Sinch 实现应用程序到应用程序的呼叫 我已经使用 Sinch 在我的 iOS 应用程序中实现了 Pushkit 但是当应用程序处于后台时 推送通知不起作用 我有两个问题 我是否需要另一个 Web
  • 实现Map并保持插入顺序的Java类?

    我正在java中寻找一个具有键值关联但不使用哈希的类 这是我目前正在做的事情 将值添加到Hashtable 获取一个迭代器Hashtable entrySet Iterate through all values and Get a Map
  • 在python中检测文本中的缩写

    我想在文本中找到缩写并将其删除 我目前正在做的是识别连续的大写字母并将其删除 但我发现它并没有删除缩写 例如MOOCs M O O C M O O Cs 在 python 中是否有一种简单的方法可以做到这一点 或者有什么库可以代替吗 The