寻找短语共现矩阵的有效算法

2024-04-23

我有一个包含大约 40,000 个短语的列表 L 和一个包含大约 1000 万个单词的文档。我想检查的是哪一对短语同时出现在 4 个单词的窗口内。例如，考虑 L=[“棕色狐狸”，“懒狗”]。该文件包含“一只敏捷的棕色狐狸跳过懒狗”的字样。我想看看，棕色狐狸和懒狗在四个单词的窗口中出现了多少次，并将其存储在文件中。我有以下代码来执行此操作：

content=open("d.txt","r").read().replace("\n"," ");
for i in range(len(L)):
 for j in range(i+1,len(L)):
  wr=L[i]+"\W+(?:\w+\W+){1,4}"+L[j]
  wrev=L[j]+"\W+(?:\w+\W+){1,4}"+L[i]
  phrasecoccur=len(re.findall(wr, content))+len(re.findall(wrev,content))
  if (phrasecoccur>0):
    f.write(L[i]+", "+L[j]+", "+str(phrasecoccur)+"\n")

本质上，对于列表 L 中的每对短语，我在文档内容中检查这些短语在 4 个单词的窗口中出现的次数。然而，当列表 L 非常大（例如 40K 元素）时，此方法的计算效率很低。有更好的方法吗？

你可以使用类似的东西Aho-Corasick 字符串匹配算法 https://en.wikipedia.org/wiki/Aho%E2%80%93Corasick_string_matching_algorithm。从您的短语列表构建状态机。然后开始将单词输入状态机。每当发生匹配时，状态机都会告诉您匹配的是哪个短语以及匹配的单词编号。所以你的输出会是这样的：

"brown fox", 3
"lazy dog", 8
etc.

您可以捕获所有输出并对其进行后处理，也可以在找到匹配项时对其进行处理。

构建状态机需要一点时间（40,000 个短语需要几秒钟），但之后输入标记的数量、短语的数量和匹配的数量呈线性关系。

我使用类似的方法将 5000 万个 YouTube 视频标题与 MusicBrainz 数据库中的数百万个歌曲标题和艺术家姓名进行匹配。效果很好。而且速度非常快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

寻找短语共现矩阵的有效算法的相关文章

Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
使用字母而不是数字进行顺序计数[重复]

这个问题在这里已经有答案了我需要一种方法将字符串递增到 z 然后将 aa 递增到 az 然后将 ba 递增到 bz 依此类推就像 Excel 工作表中的列一样我将向该方法提供前一个字符串它应该增加到下一个字母 PSEUDO C
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
在函数调用之间保存数据的Pythonic方式是什么？

对我来说上下文是我需要在调用修改该值的函数之间保留的单个 int 的信息我可以使用全局但我知道这是不鼓励的现在我使用了包含 int 的列表形式的默认参数并利用了可变性以便在调用之间保留对值的更改如下所示 def increm
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
在 MATLAB 中创建共享库

一位研究人员在 MATLAB 中创建了一个小型仿真我们希望其他人也能使用它我的计划是进行模拟清理一些东西并将其变成一组函数然后我打算将其编译成C库并使用SWIG https en wikipedia org wiki SWIG创建一
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
Python 垃圾收集有时在 Jupyter Notebook 中不起作用

我的一些 Jupyter 笔记本经常出现 RAM 不足的情况而且我似乎无法释放不再需要的内存这是一个例子 import gc thing Thing result thing do something thing None gc col
如何在 Python 中仅列出 zip 存档中的文件夹？

如何仅列出 zip 存档中的文件夹这将列出存档中的每个文件夹和文件 import zipfile file zipfile ZipFile samples sample zip r for name in file namelist pr
在Python中计算结构体的CRC

我有以下结构来自 C 中的 NRPE 守护程序代码 typedef struct packet struct int16 t packet version int16 t packet type uint32 t crc32 value
python中打印字符串的长度

有没有什么方法可以找到即使是最好的猜测 Python中字符串的打印长度例如 potaa bto 是 8 个字符len但 tty 上只打印 6 个字符宽预期用途 s potato x1b 01 32mpotato x1b 0 0mp
如何使用数据库在 Django 中的应用程序之间交换数据？

我正在使用 Django 在网络上工作我创建了 2 个应用程序第一个用于客户端注册并将其数据添加到数据库第二个应用程序供用户访问和查看交互界面这个想法是使用第二个应用程序从数据库中的客户端获取数据并使用它向用户显示一些信息我的问
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai
Jinja2中获取请求参数

如何检索请求参数a在 Jinja2 模板中 http foo bar a 1 我这个答案有点晚了但其他解决方案并没有真正考虑到您对 Flask 的使用事实上您将 Flask 与 Jinja2 一起使用这使得您的情况与其他框架有点不同
在Python中从列表中获取n个项目组的惯用方法？ [复制]

这个问题在这里已经有答案了给定一个列表 A 1 2 3 4 5 6 是否有任何惯用的 Pythonic 方式来迭代它就好像它是 B 1 2 3 4 5 6 除了索引之外这感觉像是 C 的遗留物 for a1 a2 in A i A i
Shap - 颜色条不显示在摘要图中

显示summary plot时不显示颜色条 shap summary plot shap values X train 我尝试过改变plot size 当绘图较高时会出现颜色条但它非常小看起来不应该 shap summary plo

随机推荐

Django - 显示 ModelForm 外键字段

型号及形式 class Book models Model author models ForeignKey User name models CharField max length 50 class BookForm forms Mod
使用 applescript 在 Outlook 中创建带附件的邮件

我正在尝试在 Microsoft Outlook 版本 15 6 中打开一个新消息窗口并填充包括附件在内的字段这是我的动作脚本代码 tell application Microsoft Outlook set newMessage to
如何通过反射区分值类型、可为空值类型、枚举、可为空枚举、引用类型？

如何通过反射区分值类型可为空值类型枚举可为空枚举引用类型 enum MyEnum One Two Three class MyClass public int IntegerProp get set public int Nulla
如何使用浮点数组中的数据初始化 cv::Mat

我需要创建一个cv Mat用我的数据初始化的变量float 大批这应该是基本的但我很难弄清楚我有代码 float matrixAB lt 120 floating point array created elsewhere gt cv
iOS 8 中的自定义键盘可以添加新字符吗？

在 iOS 8 中 Apple 为开发人员提供了创建自定义键盘的能力在里面文档 https developer apple com library prerelease ios documentation General Conceptu
vim可以实时监控文件的变化吗

我的问题与此类似如何实时监控文本文件 https stackoverflow com questions 18632 how to monitor a text file in realtime但我想在vim中做我知道我可以读取打开的文件
两个或多个 Android 设备之间的 WiFi 聊天

我想开发一个聊天应用程序使用 wifi 网络在两个或多个 Android 设备之间聊天该应用程序应该能够相互发送或接收字符串我有在pc和android之间使用蓝牙网络的经验任何人都可以给我任何建议或正确的方向提前致谢您可以在两个
从班级内部传递代表

trackableCollection正确注入Fragment and Activity有 AndroidEntryPoint 现在我需要将其注入 CustomView 中但在构造函数中 WithFragmentBindings Andro
一次绘制一个图形而不关闭旧图形（matplotlib）

有没有一种方法可以一次绘制一组图形而不关闭前一个图形保持对 UI 的控制并在最后保持图形打开也许使用更合适的后端或者使用 OO 风格而不是下面使用的 pyplot pylab 风格来编写它例如我知道我能做到 plt ioff f
为 Mac OS X 10.6.8 安装 Pygame

使用Python 2 7 2 当我尝试导入 pygame 时收到此错误消息 Traceback most recent call last File
bigquery 中的条件连接

我有两张桌子表 1 是单列整数表 2 有三列 start integer end integer data 简单的查询是将整数列与数据连接起来其中 integer gt start integer AND integer lt end
“更改材料轮廓颜色”按钮不起作用

我想更改活动切换按钮的颜色但仅仅改变rippleColor 就会产生影响我希望自定义活动按钮的背景颜色和文本颜色在下面的toggleButtonGroup中我使用了上面的这种样式
使用 .NET 4.5.2 从 C# 代码更改键盘布局

我正在为 SDL Trados Studio 插件编写代码插件的最后一部分需要一些 API 根本没有公开的自动化所以我所拥有的坚持一些东西就是自动化默认的键盘快捷键我的代码非常适合英语键盘布局还有匈牙利语但它当然不适用于希腊语
如何从同一台机器上运行的 Docker 加载主机中运行的 MongoDB 中的数据？

我正在 Ubuntu 18 02 机器上通过以下命令运行 Pytorch docker 容器 Run Pytorch container image docker run it v home ubuntu Downloads docker
xcode 5 无法看到旧 iOS 项目中的 NSLog(s)

我有一个旧的iOS6我去年玩过的应用程序它只适合我的妻子所以我从未发布过它但我想掸掉它看看它是否对其他人有用所以我把它加载到XCode5 5 0 2 在 10 8 4 上运行我也在我的家用笔记本电脑上尝试过这个运行相同的XCo
如何在 Xamarin Forms 中的其他项目之上显示 ListView？

I have a ListView that displays recent Search items I have added it in the Stack Layout of my Main page I want to show L
HTML 输入文件按用户选择顺序进行多重排序

如果用户选择多个文件则需要按用户选择优先级排序如facebook FileList 需要取决于用户顺序这是示例代码 function handleFileSelect evt var files evt target files Fi
gestureRecognizer：shouldReceive Touch：没有被调用

gestureRecognizer shouldReceive Touch 方法未被调用是我设置不当吗 id init UILongPressGestureRecognizer touchHold UILongPressGestureRe
ContinueWith() 内的函数不起作用

public void Login string email emailInputField text string password passwordInputField text auth SignInWithEmailAndPassw
寻找短语共现矩阵的有效算法

我有一个包含大约 40 000 个短语的列表 L 和一个包含大约 1000 万个单词的文档我想检查的是哪一对短语同时出现在 4 个单词的窗口内例如考虑 L 棕色狐狸懒狗该文件包含一只敏捷的棕色狐狸跳过懒狗的字样我想看看棕色

寻找短语共现矩阵的有效算法

寻找短语共现矩阵的有效算法 的相关文章

随机推荐

热门标签

寻找短语共现矩阵的有效算法的相关文章