在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

2024-04-29

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列（“标题”、“标题”）的相似性。我的函数称为“cosine_sim_udf”，为了能够使用它，我必须进行第一次 udf 转换。

将函数应用于 df 后出现查找错误。有谁知道原因或有解决方案建议吗？

我的函数是寻找余弦相似度；

nltk.download('punkt')

stemmer = nltk.stem.porter.PorterStemmer()
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

def stem_tokens(tokens):
    return [stemmer.stem(item) for item in tokens]


'''remove punctuation, lowercase, stem'''
def normalize(text):
    return stem_tokens(nltk.word_tokenize(text.lower().translate(remove_punctuation_map)))

vectorizer = TfidfVectorizer(tokenizer=normalize, stop_words='english')

def cosine_sim(text1, text2):
    tfidf = vectorizer.fit_transform([text1, text2])
    return float(((tfidf * tfidf.T).A)[0,1])

cosine_sim_udf = udf(cosine_sim, FloatType())

df2 =  df.withColumn('cosine_distance', cosine_sim_udf('title', 'headline')) # title and headline are text to find similarities

然后我得到这个错误；

PythonException: 'LookupError: 
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 426.0 failed 4 times, most recent failure: Lost task 0.3 in stage 426.0 (TID 2135) (10.109.245.129 executor 1): org.apache.spark.api.python.PythonException: 'LookupError: 
**********************************************************************
  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt/PY3/english.pickle[0m

  Searched in:
    - '/root/nltk_data'
    - '/databricks/python/nltk_data'
    - '/databricks/python/share/nltk_data'
    - '/databricks/python/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'

问题是在你的情况下nltk.download('punkt')仅在驱动程序节点上执行，而 UDF 函数在未安装的工作节点上执行。

您有以下可能性：

使用安装所需的资源集群初始化脚本 https://docs.databricks.com/clusters/init-scripts.html像这样的东西（它将在所有节点上安装这个文件）：

#!/bin/bash

pip install nltk
python -m nltk.downloader punkt

像这样的东西（尚未测试，但可能有效。也可能不适用于自动缩放集群）：

import nltk
num_executors = sc._jsc.sc().getExecutorMemoryStatus().size()-1
sc.parallelize((("")*num_executors), num_executors) \
  .mapPartitions(lambda p: [nltk.download('punkt')]).collect()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

PySpark

NLTK

Databricks

在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误的相关文章

Google Cloud ML：输出的外部尺寸必须未知

我们在本地得到了一个工作的导出模型正在创建一个新的模型版本谷歌云机器学习如下 Create Version failed Model validation failed Outer dimension for outputs must b
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
从 keras 模型中将特征提取到数据集中

我使用以下代码由here https github com keras team keras blob master examples mnist cnn py 运行 CNN 来训练 MNIST 图像 from future import
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
Java机器学习库可以商用吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道我可以将其用于商业产品的优秀 Java 机器学习库吗不幸的是 Weka 和 Rapidmin
R 中 svm 特征选择的示例

我正在尝试使用 R 包在 SVM 中应用特征选择例如递归特征选择我已经安装了 Weka 它支持 LibSVM 中的特征选择但我还没有找到任何 SVM 语法的示例或类似的东西一个简短的例子会有很大的帮助功能rfe in the ca
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
Tensorflow 的 LSTM 输入

I m trying to create an LSTM network in Tensorflow and I m lost in terminology basics I have n time series examples so X
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择我想要获得最终的功能集across标签然后我将在另一个机器学习包中使用它我打算使用我看到的方法here https stackoverflow com questions 1640
随机森林修剪

我有 sklearn 随机森林回归器它非常重有 1 6 GB 并且在预测值时工作很长时间我想把它修剪一下让它变得更轻据我所知决策树和森林没有实施修剪我无法自己实现它因为树代码是用 C 编写的而我不知道有谁知道解决方案吗
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
scikit-learn RandomForestClassifier 中的子样本大小

如何控制用于训练森林中每棵树的子样本的大小根据 scikit learn 的文档随机森林是一种适合许多决策的元估计器数据集的各个子样本上的树分类器并使用平均以提高预测准确性并控制过度拟合子样本大小始终与原始输入样本相同大小但如
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven

随机推荐

重写 ResponseWriter 接口以捕获 HTTP 错误

我正在用 Go 编写一个 Web 应用程序虽然各种 mux 库提供了一种设置自定义 404 错误处理程序的方法但没有任何其他 4xx 和 5xx 错误代码一个建议是重写 ResponseWriter 接口中的 WriteHeader
如何在 Google 日历中创建“recurData”？

我想使用 Google API 创建日历的重复事件我正在关注链接谷歌日历API http code google com apis calendar data 2 0 developers guide dotnet html Creat
jQuery 可以改变 css 样式定义吗？（不是每个元素的单独CSS）

我还没有看到任何文档说 jQuery 可以更改任何 CSS 定义例如更改 td padding 0 2em 1 2em to td padding 0 32em 2em 但要么必须更改整个样式表要么更改每个元素的类要么更改每个元素的
如何使用 Skype4Java 连接到 Skype？

尝试运行 MakeCall 示例代码时出现以下异常 com skype NotAttachedException at com skype Utils convertToSkypeException Utils java 36 at com
将字符串作为有序字典导入

我有一个没有扩展名的文件其中包含这样的行忽略行之间的间距但每一行都是单独的行 OrderedDict key1 u value1 key2 value2 OrderedDict key1 u value1 key2 value2 Or
安装我的应用程序时的 android 意图

安装我的应用程序时我需要执行一项操作我研究过使用 Intent PACKAGE ADDED 但我没有收到正在安装的应用程序中的意图我想在第一次安装我的应用程序时运行代码该用例是注册在线服务我可以列出 BOOT COMPLETED 如
Indexeddb 添加新值而不是更新现有值

当尝试更新其中的记录时索引数据库使用put方法看起来是创造了新的价值而不是改变根据MDN https developer mozilla org en US docs Web API IDBObjectStore put这是更新记录的方
Rails Turbolinks 长请求不显示页面加载

在 Rails 中使用 Turbolinks 如果请求花费很长时间无论是预期的还是非预期的浏览器都没有通常的提示来显示任何事情正在发生我创建了一个要点它使用加载对话框来解决此问题如果请求花费的时间超过 500 毫秒这是可配置的
是什么导致 OS X 应用程序无法打开并出现错误“LSOpenURLsWithRole() 失败，错误 -10810”？

我正在为 OS X 开发一个非常简单的应用程序包我的操作系统版本是 10 7 5 本例中的应用程序是一个 shell 脚本 Kerkerkruip app Contents Info plist https github com i7 k
从 MySql 迁移：MariaDB 服务器意外关闭客户端连接

由于许可商业使用原因我们正在从 MySql 迁移到 MariaDB 我们已经成功用 MariaDB 客户端 jar 替换了 MySql 连接器 jar 第一次更改现在正在尝试用 MariaDB 服务器替换 MySql 服务器而不更改数
mvc3 中的小数错误 - 该值对于字段无效

我正在关注 ASP NET MVC 3 入门 1 我无法添加编辑 Price 9 99 或 9 99 的值它说值 9 99 对 Price 无效和价格字段必须是数字如何解决这个问题 Model public class Movi
Xamarin 中的 Task.ConfigureAwait(false) - 安全使用/建议使用？

经验法则是如果它不是与 UI 相关的方法请使用Task ConfigureAwait false 如果我有一个接受接口的 PCL 核心库怎么办IUIAccess 核心库中的视图模型有一个方法 public Task ViewModelL
左/右旋转进位的实际用途

循环左进位和循环右进位指令有哪些实际用途在我的汇编课上我们无法想出一个有用的好例子如果要将位从一个操作数移出并移入另一个操作数 SHL EAX 1 move sign bit of EAX RCL EDX into LSB of ED
为什么我不能声明对可变对象的引用？（“引用不能声明为可变的”）

假设我们有一个test cpp如下 class A class B private A mutable a 汇编 gt gcc test cpp test cpp 6 20 error reference a cannot be decla
相对于父元素的边框框调整子元素的大小

如果我以百分比设置子元素的大小则大小将相对于父元素计算内容框 http www w3schools com css css boxmodel asp 独立于我已经设置了它的事实box sizing财产给border box 所以如果我有这
初始化影子变量

标准中是否有任何内容定义从它隐藏的变量初始化变量例如 int i 7 int i i Visual Studio 2013 允许这样做而不发出警告并按预期工作内在i变量是 7 然而 Clang 和 GCC 给我一个警告关于从自身初始化
多次发生 Web 服务错误

在许多机器使用 Asp net 1 和 2 上我们看到以下带有随机文件名的错误使用 dll每次我们尝试进行 Web 服务调用时都会生成此扩展名过去我们不得不重新安装asp net这似乎已经解决了问题然而有一次我们尝试获取命令提示
序列化/反序列化 LinkedHashMap (android) java

所以我想将 LinkedHashMap 传递给意图 SEND THE MAP Intent singlechannel new Intent getBaseContext singlechannel class singlechannel
CSS 中 img 上的 box-shadow

是否可以在CSS中为img标签添加阴影我尝试过但似乎不起作用我是正确的还是我的代码搞砸了 CSS image carousel img padding right 14px display block float left box s
在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列标题标题的相似性我的函数称为 cosine sim udf 为了能够使用它我必须进行第一次 udf 转换将函数应用于 df 后出现查找错误

在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误 的相关文章

随机推荐

热门标签

在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误的相关文章