按多个单词的主题标签拆分术语

2024-04-16

我正在尝试拆分包含多个单词的主题标签的术语，例如“#I-am-great”或“#awesome-dayofmylife”
那么我正在寻找的输出是：

 I am great
 awesome day of my life

我所能实现的就是：

 >>> import re
 >>> name = "big #awesome-dayofmylife because #iamgreat"
 >>> name =  re.sub(r'#([^\s]+)', r'\1', name)
 >>> print name
 big awesome-dayofmylife because iamgreat

如果有人问我是否有可能的单词列表，那么答案是“否”，所以如果我能得到这方面的指导那就太好了。有NLP专家吗？

当然，上述所有评论者都是正确的：单词之间没有空格或其他明确分隔符的主题标签（尤其是英语）通常是不明确的，并且在所有情况下都无法正确解析。

然而，单词列表的想法实现起来相当简单，并且可能会产生有用的（尽管有时是错误的）结果，所以我实现了一个快速版本：

wordList = '''awesome day of my life because i am great something some
thing things unclear sun clear'''.split()

wordOr = '|'.join(wordList)

def splitHashTag(hashTag):
  for wordSequence in re.findall('(?:' + wordOr + ')+', hashTag):
    print ':', wordSequence   
    for word in re.findall(wordOr, wordSequence):
      print word,
    print

for hashTag in '''awesome-dayofmylife iamgreat something
somethingsunclear'''.split():
  print '###', hashTag
  splitHashTag(hashTag)

这打印：

### awesome-dayofmylife
: awesome
awesome
: dayofmylife
day of my life
### iamgreat
: iamgreat
i am great
### something
: something
something
### somethingsunclear
: somethingsunclear
something sun clear

正如你所看到的，它落入了 qstebom 为它设置的陷阱;-)

EDIT:

对上面代码的一些解释：

变量wordOr包含所有单词的字符串，由管道符号分隔（|）。在正则表达式中，这意味着“这些单词之一”。

首先findall获取一个模式，表示“一个或多个这些单词的序列”，因此它与“dayofmylife”之类的内容匹配。这findall找到所有这些序列，所以我迭代它们（for wordSequence in …）。对于每个单词序列，然后我搜索每个单词（也使用findall）在序列中并打印该单词。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

NLTK

按多个单词的主题标签拆分术语的相关文章

ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
在 Java 正则表达式中获取多个模式的重叠匹配

我有同样的问题这个链接 https stackoverflow com questions 18751486 matching one string multiple times using regex in java 但有多种模式我的正
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
PHP URL 验证

我知道有无数的线程问这个问题但我一直无法找到一个可以帮助我解决这个问题的线程我基本上试图解析大约 10 000 000 个 URL 的列表确保它们根据以下标准有效然后获取根域 URL 此列表包含您能想象到的几乎所有内容包括类似的内
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
REGEXP_REPLACE - 仅当包含在 () 中时才从字符串中删除逗号

我在 oracle 论坛网站找到了一个例子输入字符串 a b c x y z a xx yy zz x WITH t AS SELECT a b c x y z a xx yy zz x col1 FROM dual SELECT t c
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
使用 suds SOAP 库进行 HTTP 身份验证的奇怪行为

我有一个正在运行的 python 程序它使用 suds 通过 SOAP 获取大量数据 Web服务是通过分页功能实现的这样我就可以抓取nnn每个 fetch 调用的行并获取下一个nnn与后续的电话如果我使用如下代码向 HTTP 服务器进
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update

随机推荐

Eclipse 导出的 Runnable JAR 不显示图像

运行从 Eclipse 导出的 JAR 文件时我的图像不会加载我的图像位于资源类包中我也尝试过图像源文件夹但没有成功从 Eclipse 加载时工作完美图像位于导出的 JAR 文件中因此导出正常我试过了 label setIc
与经过验证的位置交互？ - 谷歌地图

好的有很多Google 地图上标记的商家这些日子但我无法以任何方式与这些互动这是我掌握的信息场地名称声音部地址伦敦冈特街 103 号 SE1 6DP 谷歌的地理位置only给我坐标纬度经度格式化地址我想要一个应用程序
将 mysql 转换为 mysqli [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我对 My
如何使用 NavigationLink 在 SwiftUI 中创建文本（仅文本中的一些单词）

我正在开发适用于 iOS 的 SwiftUI 应用程序我想以这种方式格式化文本其中蓝色单词应该是导航链接文本应该如何显示我知道可以将 UIKit 实现到 SwiftUI 代码中但是我不明白如何以这种方式使用 UIKit 和正常工
休眠并删除所有

最好的方法是什么删除 Hibernate 中表中的所有行如果我迭代一个集合并调用session delete 据我所知它的表现并不好如果我使用其他选项session createQuery delete 它不会影响持久化上下文如果没
日志文件未使用 java 中的 log4j 更新/创建

我正在尝试使用 Java 中的 log4j 捕获日志该可执行文件位于Linux环境中它显示日志消息但是它没有写入日志文件我正在使用 log4j xml 这就是我到目前为止所拥有的
使用 iScroll 会阻止键盘在我的设备上显示

我正在使用 iScroll 来提供 iPhone 风格的滚动但是当单击文本框时键盘不会显示在尝试查找可能的原因时我发现删除iScroll脚本使其正常工作但在这种情况下我错过了滚动功能这是 iScroll 中的错误吗如果是
无法使用 Visual C++ 编译 allegro

我刚刚下载了 allegro 库我创建一个新的空项目然后添加一个源文件我添加这行代码 include
安装多个 npm 版本

是否可以安装多个版本npm对于我正在从事或正在从事的不同项目npm安装总是全局的 Windows 10 还尝试安装不同版本https github com marcelklehr nodist https github com marcel
Maven 提供的作用域可以传递吗？

我有一个祖先依赖项它具有所提供的依赖范围我需要将该范围传播到依赖于我的项目的任何内容例如假设我有SomeProjectA这取决于SomeLibraryB 我需要确定范围SomeLibraryB已提供目前编译任何依赖于SomePro
设计用于库存控制的“EAV”或“类/具体表继承”数据库

我正在为一个建设项目开发库存控制系统店员负责添加新库存并将其分发给员工从员工处返还这些物品以及它们的属性将会非常多样化例如钢制品服装设备机械工具等我的问题是是否要去类具体表继承 https stackoverflow
核心数据对多关系在将对象添加到父实体时创建重复项

我是 Core Data 和 Objective c 的新手我正在开发一个项目从 Web 服务获取 JSON 数据并将其与核心数据同步我成功地遵循了这个tutorial http www raywenderlich com 15916
用 Java JNA 编写的关键监听器。防止多次回调

我使用以下代码来监听全局按键事件 Win32HookManager java import com sun jna Pointer import com sun jna platform win32 Kernel32 import com
使用地图计算文本文件中出现的次数

下面的代码将计算每个字符的出现次数如果我在文本文件中有 abc 输出将是 a 1 b 1 c 1 我在许多网站上读到 for 循环将花费大量时间最好使用哈希映射来实现相同的效果你们中的任何人都可以帮我如何转换这个实现哈希映射的程序吗
对c#的async/await控制流程感到困惑

我正在学习 async await 并且对 wait 的解释感到困惑MSDN https learn microsoft com en us dotnet csharp language reference keywords await w
SSH 连接超时

我正在尝试使用以下命令建立 SSH 连接golang org x crypto ssh我有点惊讶我似乎不知道如何超时NewSession函数实际上我没有看到任何超时的方法当我尝试连接到有问题的服务器时它会挂起很长时间我写了一些可以使
您没有浏览服务器的权限？

我将 kcfinder 与 ckeditor 一起使用改变的同时disabled to false在 kcfinder 的配置文件中没有问题但是用以下命令覆盖它 SESSION KCFINDER array disabled gt fa
EF Core 中的 AddRange 和 AddRangeAsync 有什么区别

我正在使用 EF Core 插入条目我注意到当我调试这行代码时context MyEntityDbSet AddRangeAsync records 加载需要一秒钟而不是context MyEntityDbset AddRange re
列族 ID 不匹配（发现为 cebcc380-72d4-11e7-9a6b-bd620b945799；预期为 c05d6970-72d4-11e7-9a6b-bd620b945799）

我该如何解决这个错误列族 ID 不匹配发现为 cebcc380 72d4 11e7 9a6b bd620b945799 预期为 c05d6970 72d4 11e7 9a6b bd620b945799 Caused by java uti
按多个单词的主题标签拆分术语

我正在尝试拆分包含多个单词的主题标签的术语例如 I am great 或 awesome dayofmylife 那么我正在寻找的输出是 I am great awesome day of my life 我所能实现的就是 gt gt g

按多个单词的主题标签拆分术语

按多个单词的主题标签拆分术语 的相关文章

随机推荐

热门标签

按多个单词的主题标签拆分术语的相关文章