计算 Spark 数据框中的单词数

2024-01-25

在不使用 SQL 的 REPLACE() 函数的情况下，如何找到 Spark 数据帧的列中的单词数？下面是我正在使用的代码和输入，但 Replace() 函数不起作用。

from pyspark.sql import SparkSession
my_spark = SparkSession \
    .builder \
    .appName("Python Spark SQL example") \
    .enableHiveSupport() \
    .getOrCreate()

parqFileName = 'gs://caserta-pyspark-eval/train.pqt'
tuesdayDF = my_spark.read.parquet(parqFileName)

tuesdayDF.createOrReplaceTempView("parquetFile")
tuesdaycrimes = spark.sql("SELECT LENGTH(Address) - LENGTH(REPLACE(Address, ' ', ''))+1 FROM parquetFile")

print(tuesdaycrimes.show())


+-------------------+--------------+--------------------+---------+----------+--------------+--------------------+-----------+---------+
|              Dates|      Category|            Descript|DayOfWeek|PdDistrict|    Resolution|             Address|          X|        Y|
+-------------------+--------------+--------------------+---------+----------+--------------+--------------------+-----------+---------+
|2015-05-14 03:53:00|      WARRANTS|      WARRANT ARREST|Wednesday|  NORTHERN|ARREST, BOOKED|  OAK ST / LAGUNA ST| -122.42589|37.774597|
|2015-05-14 03:53:00|OTHER OFFENSES|TRAFFIC VIOLATION...|Wednesday|  NORTHERN|ARREST, BOOKED|  OAK ST / LAGUNA ST| -122.42589|37.774597|
|2015-05-14 03:33:00|OTHER OFFENSES|TRAFFIC VIOLATION...|Wednesday|  NORTHERN|ARREST, BOOKED|VANNESS AV / GREE...| -122.42436|37.800415|

使用 pyspark DataFrame 函数计算单词数的方法有很多种，具体取决于您要查找的内容。

创建示例数据

import pyspark.sql.functions as f
data = [
    ("2015-05-14 03:53:00", "WARRANT ARREST"),
    ("2015-05-14 03:53:00", "TRAFFIC VIOLATION"),
    ("2015-05-14 03:33:00", "TRAFFIC VIOLATION")
]

df = sqlCtx.createDataFrame(data, ["Dates", "Description"])
df.show()

在此示例中，我们将计算Description column.

每行计数

如果您想要每行指定列中的单词数，您可以使用以下命令创建一个新列withColumn()并执行以下操作：

Use pyspark.sql.functions.split() http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.split将字符串分解为列表
Use pyspark.sql.functions.size() http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.size计算列表的长度

例如：

df = df.withColumn('wordCount', f.size(f.split(f.col('Description'), ' ')))
df.show()
#+-------------------+-----------------+---------+
#|              Dates|      Description|wordCount|
#+-------------------+-----------------+---------+
#|2015-05-14 03:53:00|   WARRANT ARREST|        2|
#|2015-05-14 03:53:00|TRAFFIC VIOLATION|        2|
#|2015-05-14 03:33:00|TRAFFIC VIOLATION|        2|
#+-------------------+-----------------+---------+

所有行的字数总和

如果你想计算整个 DataFrame 中列中的总单词数，你可以使用pyspark.sql.functions.sum() http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.sum:

df.select(f.sum('wordCount')).collect() 
#[Row(sum(wordCount)=6)]

统计每个单词出现的次数

如果您想要整个 DataFrame 中每个单词的计数，您可以使用split() and pyspark.sql.function.explode() http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.explode随后是一个groupBy and count().

df.withColumn('word', f.explode(f.split(f.col('Description'), ' ')))\
    .groupBy('word')\
    .count()\
    .sort('count', ascending=False)\
    .show()
#+---------+-----+
#|     word|count|
#+---------+-----+
#|  TRAFFIC|    2|
#|VIOLATION|    2|
#|  WARRANT|    1|
#|   ARREST|    1|
#+---------+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

计算 Spark 数据框中的单词数的相关文章

顶级棉花糖模式验证

From 棉花糖 validation http marshmallow readthedocs org en latest quickstart html validation 我知道我可以在架构中的特定字段上注册验证器如果验证器失败
HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
Python pandas：删除字符串中分隔符之后的所有内容

我有数据框其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容包括两个以便我最终得到 vendor a vendor b vendor a 我尝
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
使用 OpenCV 进行相机校准 - 如何调整棋盘方块大小？

我正在使用 OpenCV Python 示例开发相机校准程序来自 OpenCV 教程 http opencv python tutroals readthedocs io en latest py tutorials py calib3d
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
将查询参数添加到 URL

我正在尝试自动从网站下载数据我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单如何传递参数并从 url 获取结果这是我尝试过的它需要在 python 2 7 中 import urllib url https d
PyPI 上的轮子平台约束有什么限制吗？

是否有任何地方 PEP 或其他地方声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有具体来说上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
Python Flask应用程序无法被网络中的远程计算机访问

我在本地主机上的 python 上运行了一个简单的 Flask Web 应用程序 Web 应用程序在 127 0 0 1 8000 上运行但我无法使用 myHostComputerIPaddress 8000 从网络中的远程计算机访问它
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
如何让 Python 找到 ffprobe？

I have ffmpeg and ffprobe安装在我的 mac macOS Sierra 上并且我已将它们的路径添加到 PATH 中我可以从终端运行它们我正在尝试使用ffprobe使用以下代码获取视频文件的宽度和高度 impor
单击 selenium 中的链接时循环遍历表格的行（python）

示例页面源代码如下所示 div class div1 table class foot market tbody td class today name td tbody tbody td class today name td tbody
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove

随机推荐

TFSBuild/MSBuild 和项目参考与文件参考

我们有一个使用项目引用的大型 VS 解决方案该解决方案由 TFS Build 构建如下所示 Solution Project 1 Project 2 Project Project N 由于解决方案太大我们有几个日常使用的较小解决方案
如何显示 tiff 图像？

我完全迷失了我需要一些人来指导我我看过很多帖子但没有解释如何显示 tif 图像我在哪里可以找到一些教程如果可能的话我需要从一开始或者如果你能帮助我那就太好了我只是一个持有图像的新手我使用 mvc 4 正如您可能发现的那样
命令提示符中“cls”之后但不在“cls”之前的彩色文本

我有一个 python 程序我试图在命令提示符中使用 ANSI 代码以彩色文本打印 Hello 当我正常打印时它不起作用它只是打印和文本但是当我在清除命令提示符后打印它时它工作正常有人可以解释一下这种奇怪的性质吗我搜索了这个
单个 TextView 中的多个 TypeFace

我想将第一个字符设置为TextView with a TypeFace以及具有不同类型面孔的第二个角色依此类推我读过这个例子 Spannable str Spannable textView getText str setSpan ne
在 Symfony2 中测试文件上传

在 Symfony2 文档中它给出了一个简单的示例 client gt request POST submit array name gt Fabien array photo gt path to photo 模拟文件上传然而在我的
JPA - 我可以使用 @DiscriminatorValue 创建一个没有自己的表的实体类吗？

我使用带有联合继承的 JPA 和如下所示的数据库结构 ACTION ACTION ID ACTION MAPPING ID ACTION TYPE DELIVERY CHANNEL ACTION ACTION ID CHANNEL ID O
WPF 交互触发器在样式中调用视图模型上的命令[重复]

这个问题在这里已经有答案了可能的重复如何在样式设置器中添加混合行为 https stackoverflow com questions 1647815 how to add a blend behavior in a style set
您可以使用类 C 语言对 FPGA 进行编程吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案在大学里我用类似 C 的语言编写了 FPGA 不过我也知道人们通常使用 Verilog 或 VHD
静态类必须从对象派生 (C#)

我在 C 中遇到问题输出状态为 Error 1 Static class WindowsFormsApplication1 Hello2 cannot derive from type System Windows Forms Form
Celery AttributeError：异步错误

我在 Mac OS X 10 13 4 上本地运行 RabbitMQ 和 Celery 当我运行 add delay x y 时以下代码在本地运行 usr bin env python from celery import Celery
SSH 和 -bash：fork：无法分配内存 VPS Ubuntu

我在 Ubuntu 12 04 VPS Nginx Unicorn 上托管我的 Rails 应用程序部署后一切正常但几个小时后当我 ssh 到 VPS 时我收到此消息 bash fork Cannot allocate memory
如何为谷歌地图设置自定义标记标题

如何设置包含信息和按钮的样式自定义标记标题片段我已经有一个自定义标记图标图像集现在我需要一个自定义弹出窗口当用户点击标记时该窗口将包含某些信息和一个按钮这与我想要实现的目标很接近自定义标题片段示例 LatLng huduma
std::array 是可移动的吗？

std array 是可移动的吗 In Bjarne Native 2012 演示幻灯片 http ecn channel9 msdn com events GoingNative12 GN12Cpp11Style pdf 幻灯片 41 列
如何使用 firebug 检查 CSS 伪类？

我正在与一种不情愿的挣扎a hover我无法覆盖的 css 样式我尝试检查 Firebug 中的元素但我不明白为什么它不起作用我什至不知道如何正确检查a hoverFirebug 中的 CSS 事件我见过 Firebug 中的悬停检
错误：根：未找到哈希 md5 代码

我在一台没有 root 访问权限的 Linux 机器上我构建了自己的 openssl 和 python 本地副本 2 7 13 当我尝试在 python 中导入 hashlib 时收到以下错误消息 gt python Python 2
鼠标点击时 Div 隐藏/显示的问题

我尝试了你的脚本但它不能正常工作我编辑了下面的代码以准确显示我正在使用的内容非常感谢您的帮助 Quazi Hi 我对 JQuery 很陌生我正在尝试获取一个 divfade in在点击事件之后然后hide单击任意位置后我设置了三个
什么是列存储索引以及与聚集索引和非聚集索引有何不同？

我对列存储索引感到困惑什么是列存储索引它与聚集索引和非聚集索引有何不同假设您有如下表col1作为主键 col1 PK col2 col3 1 2 3 4 5 6 普通索引将按行每行存储因此单个给定行的所有列都驻留在单个页面上
如何在 IntelliJ Rider 中生成 API 控制器？

在 Visual Studio 中我可以通过选择添加在 Web API 项目中生成 API 控制器控制器从这个菜单中我可以选择模型类上下文类和控制器名称并且按下按钮我可以生成数百行样板文件我已转移到 IntelliJ Ri
GLSurfaceView.queueEvent不在GL线程中执行

我正在尝试从我的主要活动中为我的 GLSurfaceView 执行一些 OpenGL 命令由于 OpenGL 渲染器在它自己的线程中工作我必须使用queueEvent 据我所理解我正在打电话queueEvent在我的 GLSurfac
计算 Spark 数据框中的单词数

在不使用 SQL 的 REPLACE 函数的情况下如何找到 Spark 数据帧的列中的单词数下面是我正在使用的代码和输入但 Replace 函数不起作用 from pyspark sql import SparkSession my

计算 Spark 数据框中的单词数

计算 Spark 数据框中的单词数 的相关文章

随机推荐

热门标签

计算 Spark 数据框中的单词数的相关文章