使用 pyspark 计算所有可能的单词对

2024-05-11

我有一个文本文档。我需要找到整个文档中重复单词对的可能数量。例如，我有下面的word文档。该文档有两行，每行用“;”分隔。文档：

My name is Sam My name is Sam My name is Sam;
My name is Sam;

我正在研究配对词计数。预期的结果是：

[(('my', 'my'), 3), (('name', 'is'), 7), (('is', 'name'), 3), (('sam', 'sam'), 3), (('my', 'name'), 7), (('name', 'sam'), 7), (('is', 'my'), 3), (('sam', 'is'), 3), (('my', 'sam'), 7), (('name', 'name'), 3), (('is', 'is'), 3), (('sam', 'my'), 3), (('my', 'is'), 7), (('name', 'my'), 3), (('is', 'sam'), 7), (('sam', 'name'), 3)]

如果我使用：

wordPairCount = rddData.map(lambda line: line.split()).flatMap(lambda x: [((x[i], x[i + 1]), 1) for i in range(0, len(x) - 1)]).reduceByKey(lambda a,b:a + b)

我得到连续单词的配对词及其重复出现的次数。

如何将每个单词与行中的每个其他单词配对，然后在所有行中搜索同一对？

有人可以看一下吗？谢谢

您的输入字符串：

# spark is SparkSession object
s1 = 'The Adventure of the Blue Carbuncle The Adventure of the Blue Carbuncle The Adventure of the Blue Carbuncle; The Adventure of the Blue Carbuncle;'

# Split the string on ; and I parallelize it to make an rdd
rddData = spark.sparkContext.parallelize(rdd_Data.split(";"))

rddData.collect()
# ['The Adventure of the Blue Carbuncle The Adventure of the Blue Carbuncle The Adventure of the Blue Carbuncle', ' The Adventure of the Blue Carbuncle', '']

import itertools

final = (
    rddData.filter(lambda x: x != "")
        .map(lambda x: x.split(" "))
        .flatMap(lambda x: itertools.combinations(x, 2))
        .filter(lambda x: x[0] != "")
        .map(lambda x: (x, 1))
        .reduceByKey(lambda x, y: x + y).collect()
)
# [(('The', 'of'), 7), (('The', 'Blue'), 7), (('The', 'Carbuncle'), 7), (('Adventure', 'the'), 7), (('Adventure', 'Adventure'), 3), (('of', 'The'), 3), (('the', 'Adventure'), 3), (('the', 'the'), 3), (('Blue', 'The'), 3), (('Carbuncle', 'The'), 3), (('Adventure', 'The'), 3), (('of', 'the'), 7), (('of', 'Adventure'), 3), (('the', 'The'), 3), (('Blue', 'Adventure'), 3), (('Blue', 'the'), 3), (('Carbuncle', 'Adventure'), 3), (('Carbuncle', 'the'), 3), (('The', 'The'), 3), (('of', 'Blue'), 7), (('of', 'Carbuncle'), 7), (('of', 'of'), 3), (('Blue', 'Carbuncle'), 7), (('Blue', 'of'), 3), (('Blue', 'Blue'), 3), (('Carbuncle', 'of'), 3), (('Carbuncle', 'Blue'), 3), (('Carbuncle', 'Carbuncle'), 3), (('The', 'Adventure'), 7), (('The', 'the'), 7), (('Adventure', 'of'), 7), (('Adventure', 'Blue'), 7), (('Adventure', 'Carbuncle'), 7), (('the', 'Blue'), 7), (('the', 'Carbuncle'), 7), (('the', 'of'), 3)]

删除第一个分割中的所有空格
将 x 分割为空格分隔的字符串，按空格
创建 2 个元素的组合，每个元素使用itertools.combinations (flatMap将每个单词与行中的每个其他单词配对）
像字数统计一样进行映射和缩减

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

RDD

使用 pyspark 计算所有可能的单词对的相关文章

scikit-learn LinearRegression 的意外交叉验证分数

我正在尝试学习使用 scikit learn 来完成一些基本的统计学习任务我认为我已经成功创建了适合我的数据的线性回归模型 X train X test y train y test cross validation train test
Python ImageTk.PhotoImage 使用 alpha 通道缓慢加载 png

我编写了一个小程序来加载和显示图像一切正常直到我到达示例中的 png 文件 shade png 显示这张小图片需要七七秒 PhotoImage 是否有错误或者我错过了一些范围这是我的示例代码 from PIL import Ima
在Python中用空格分割字符串——保留带引号的子字符串

我有一个像这样的字符串 this is a test 我正在尝试用 Python 编写一些内容以将其按空格分开同时忽略引号内的空格我正在寻找的结果是 this is a test 附言我知道您会问如果引号内有引号会发生什么嗯在
numpy.linalg.inv() 是否给出了正确的矩阵逆？编辑：为什么 inv() 给出数值错误？

我有一个矩阵形状 4000 4000 我想取逆矩阵我对逆矩阵的直觉因如此大的矩阵而崩溃起始矩阵的值大小为e 10 具有以下值 print matrix给出一个输出 2 19885119e 10 2 16462810e 10 2 1306
如何在python包中包含.pyx文件

我在我的包中使用了 cythonpyirt https github com 17zuoye pyirt 但是当我将其发布到 pypi 时 pyx 文件不包含在 tar gz 中我认为这一定与安装文件有关但是我找不到解决这个问题的方法
PySerial 和多个 Python 安装出现问题

我的 Windows 7 计算机上有 Python 2 4 4 和 3 1 3 我想使用 PySerial 听说是内置的所以我尝试了一下import serial在两个版本中两者都造成了Import Error 然后我从以下位置下载了w
Python - 在先前已在全局范围内查找的函数内重新分配名称

为什么我在下面的第三个代码中出现错误但在前两个代码中却没有出现错误我使用的是 Python 3 6 0 Anaconda 4 3 1 64 位 Jupyter Code 1 c 100 def fib c 20 a c print a
检查对象是否是字符串列表的列表？

是什么elegant检查对象是否是字符串列表列表的方法没有嵌套循环也许这里必须是构造结构化迭代的常规方法 UPD 像这样的东西 l a b c d 1 3 e 2 f def recurse iterable levels result
在OpenCV Python中编写4通道以上图像

这对我来说是一个持续的挑战我正在尝试使用 openCV 将两个 3 RGB 图像组合成一个 6 通道 TIFF 图像到目前为止我的代码如下 import cv2 import numpy as np im1 cv2 imread im1
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
Python 异步 REST API 的响应依赖于 CPU 密集型计算。如何高效处理？ [复制]

这个问题在这里已经有答案了我已经使用编写了一个基本的 REST APIaiohttp https aiohttp readthedocs io en stable index html 下面包含其简化版本以说明我想要解决的问题该 AP
Python 对象初始化错误。或者我误解了对象的工作原理？ [复制]

这个问题在这里已经有答案了 1 import sys 2 3 class dummy object 4 def init self val 5 self val val 6 7 class myobj object 8 def init s
Django外键：获取相关模型？

是否可以通过外键字段本身获取外键的相关模型例如如果我有 3 个模型 class ModelA models Model field1 models CharField max length 10 class ModelB models
Django 自定义查询集过滤器

在 Django 中是否有一种标准方法可以为查询集编写复杂的自定义过滤器就像我能写的一样 MyClass objects all filter field val 我想做这样的事情 MyClass objects all filter
os.path.expanduser("~") 的替代方案？

在Python 2 7 x中 os path expanduser Unicode 已损坏这意味着如果的扩展中包含非 ASCII 字符则会出现异常 http bugs python org issue13207 http bugs p
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
使用 pyinstaller 制作的可执行文件出现运行时错误

所以我使用 Pygame 制作了一个游戏现在我想用它制作一个可执行文件首选独立可执行文件所以我用它来制作可执行文件 pyinstaller onefile main py 编译顺利但运行时出现错误这是错误 Traceback mo
Python 中的“finally”总是执行吗？

对于Python中任何可能的try finally块是否保证finally块总是会被执行吗例如假设我在except block try 1 0 except ZeroDivisionError return finally print
使用 PyCharm 分析 Django

即使在开发环境中我的应用程序也相当慢所以我想找出是什么导致它变慢以便我可以尝试修复它我了解调试工具栏根据它的报告数据库查询和下载的源都不是问题所以它一定是业务逻辑但是我无法使用 Django 服务器运行 PyCharm 分
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth

随机推荐

Android 预安装检测

我的 Android 应用程序将被预安装我想继续跟踪预安装的应用程序为此我需要以某种方式保存密钥或标志这意味着该应用程序是预安装的我会将此密钥添加到后端的每个请求中并对其进行分析我对此有疑问有一个问题是关于从 Google P
Windows 上本机 C++ 应用程序中的自动死代码检测？

背景我有一个用原生 C 编写的应用程序花了几年的时间大约有 60 KLOC 有很多函数和类已经死了可能有 10 15 就像下面提出的类似的基于 Unix 的问题我们最近开始对所有新代码进行单元测试并尽可能将其应用于修改后的代码
使用 dateTimePicker 在 DataGridView 中编辑日期

我有一个DateTime我的 WinForms 中的专栏DataGridView 目前只能通过手动输入日期来编辑该字段例如 2010 09 02 需要什么才能拥有一个DateTimePicker 或同等用作编辑器 DataGridVie
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
如何使用Android Invalidate()

在我的主要活动中我定义了两个视图和一个菜单浏览次数 1 自定义视图游戏 2 按钮btn 菜单 1 打开项目用于打开文件菜单布局在不同的活动中定义基本上当主活动启动时它会绘制没有任何内容的自定义视图和按钮然后我使用菜单中的打开
从 Qthread 更新 Python GUI 元素

所以我知道有很多关于使用 Qthread 更新 GUI 中的元素的帖子我尽了最大努力去检查这些但仍然有一个问题我正在尝试创建一个 GUI 该 GUI 在单击按钮时运行一个方法然后该方法启动一个新线程然后该线程向 GUI 发出信号以
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
Hudson 结帐卡在“git fetch”处

我正在使用 git 版本 1 6 2 2 1669 g7eaf8 在 Hudson 1 314 上使用 Hudson Git 插件 0 7 3 当我触发构建时 Hudson 执行 git fetch 但它永远不会返回我把一只卡在那里14天
从 C# 调用时无法识别 Powershell 命令

这是这个的延续Question https stackoverflow com questions 66280000 powershell object returns null 66280138 noredirect 1 comment1
Android studio 问题：找不到广告：AdQuality：未指定

我已经更新了 Android studio 刚刚打开我的项目我收到以下错误您能让我知道如何解决这个问题吗 Error A problem occurred configuring project memoryGameCollection
在 python 中使用 re.sub 将字母变成大写？

在许多编程语言中以下内容 find foo a z bar并替换为GOO U 1GAR 将导致整个匹配项变为大写我似乎无法在 python 中找到等效项它存在吗您可以将函数传递给re sub http docs python org
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
附加之前检查数据库中是否存在 ID

我通过选择一个带有类别的数组json decode并将它们附加到文章中 public static function setArticleCategory Request request article Article where id r
将许多表转换为 Excel 列

我创建了用于文章审阅的网络应用程序我有一个名为 Article 的表每个表Article有一些ArticleReview Article ArticleId ArticleTitle NumberOfComment NumberOfVi
我应该增强客户端上的 Jquery Mobile 元素还是发送带有 data-enhance="false" 的增强标记？

我有一个产品搜索我正在发送回结果每个结果都包含两个按钮 JQM 控制组我一次发送 24 条记录因此需要增强 24 个控制组如下所示 div class submitButton linkBox div
如何禁用基于 ValidationRule 类的按钮？

如何禁用基于 ValidationRule 类的 WPF 按钮下面的代码可以很好地突出显示 TextBox
在 C# .NET 中对非 ASCII 字符进行编码

我想向我的应用程序发送的电子邮件添加自定义标头标头名称只能包含 ASCII 字符但对于值和用户可能会输入 UTF 8 字符我必须对它们进行 Base64 编码此外我还必须将它们解码回 UTF 8 以便在 UI 中向用户显示它们最
复制电子表格也会复制所有链接的文件

当我使用库方法时我希望能够仅复制电子表格及其所有工作表以及所有定义的工作表名称 spreadSheet copy newSSName Or myFile makeCopy newNameOfFile 目前这些方法复制所有链接的表单和表单
呈现 UIActivityViewController 时发出警告

当我提出一个UIActivityController使用我得到的下面的代码它被呈现但控制台显示 Warning Attempt to present
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa

使用 pyspark 计算所有可能的单词对

使用 pyspark 计算所有可能的单词对 的相关文章

随机推荐

热门标签

使用 pyspark 计算所有可能的单词对的相关文章