Spark-NLP 预训练管道只能在 Linux 系统上运行吗？

2023-11-23

我正在尝试设置一个简单的代码，在其中传递数据帧并使用 johnSnowLabs Spark-NLP 库提供的预训练解释管道对其进行测试。我正在使用 anaconda 的 jupyter 笔记本，并使用 apache toree 设置 Spark scala 内核。每次我运行应加载预训练管道的步骤时，它都会引发张量流错误。有没有办法可以在 Windows 本地运行它？

I was trying this in a maven project earlier and the same error had happened. Another colleague tried it on a linux system and it worked. Below is the code I have tried and the error that it gave.


import org.apache.spark.ml.PipelineModel
import com.johnsnowlabs.nlp.pretrained.PretrainedPipeline
import com.johnsnowlabs.nlp.SparkNLP
import org.apache.spark.sql.SparkSession

val spark: SparkSession = SparkSession
    .builder()
    .appName("test")
    .master("local[*]")
    .config("spark.driver.memory", "4G")
    .config("spark.kryoserializer.buffer.max", "200M")
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    .getOrCreate()

val testData = spark.createDataFrame(Seq(
    (1, "Google has announced the release of a beta version of the popular TensorFlow machine learning library"),
    (2, "Donald John Trump (born June 14, 1946) is the 45th and current president of the United States"))).toDF("id", "text")
val pipeline = PretrainedPipeline("explain_document_dl", lang = "en") //this is where it gives error
val annotation = pipeline.transform(testData)

  annotation.show()

  annotation.select("entities.result").show(false)

出现以下错误：

名称：java.lang.UnsupportedOperationException 消息：Spark NLP 已尝试使用 Contrib 模块加载 Tensorflow Graph，但加载失败在这个系统上。如果您在 Windows 上，则不执行此操作支持的。请尝试非贡献模型。如果不是这样，请报告此问题。原始错误消息：

Op 类型未在运行的二进制文件中注册“BlockLSTM” “我的机器”。确保 Op 和 Kernel 已在在此进程中运行的二进制文件。请注意，如果您正在加载已保存的使用 tf.contrib 中的操作的图，访问（例如）tf.contrib.resampler应在导入图表之前完成，如下所示当第一次访问模块时，contrib 操作会被延迟注册。 StackTrace：Op 类型未在运行的二进制文件中注册“BlockLSTM” “我的机器”。确保 Op 和 Kernel 已在在此进程中运行的二进制文件。请注意，如果您正在加载已保存的使用 tf.contrib 中的操作的图，访问（例如）tf.contrib.resampler应在导入图表之前完成，如下所示当第一次访问模块时，contrib 操作会被延迟注册。
在 com.johnsnowlabs.ml.tensorflow.TensorflowWrapper$.readGraph(TensorflowWrapper.scala:163) 在 com.johnsnowlabs.ml.tensorflow.TensorflowWrapper$.read(TensorflowWrapper.scala:202) 在 com.johnsnowlabs.ml.tensorflow.ReadTensorflowModel$class.readTensorflowModel(TensorflowSerializeModel.scala:73) 在 com.johnsnowlabs.nlp.annotators.ner.dl.NerDLModel$.readTensorflowModel(NerDLModel.scala:134) 在 com.johnsnowlabs.nlp.annotators.ner.dl.ReadsNERGraph$class.readNerGraph(NerDLModel.scala:112) 在 com.johnsnowlabs.nlp.annotators.ner.dl.NerDLModel$.readNerGraph(NerDLModel.scala:134) 在 com.johnsnowlabs.nlp.annotators.ner.dl.ReadsNERGraph$$anonfun$2.apply(NerDLModel.scala:116) 在 com.johnsnowlabs.nlp.annotators.ner.dl.ReadsNERGraph$$anonfun$2.apply(NerDLModel.scala:116) 在 com.johnsnowlabs.nlp.ParamsAndFeaturesReadable$$anonfun$com$johnsnowlabs$nlp$ParamsAndFeaturesReadable$$onRead$1.apply(ParamsAndFeaturesReadable.scala:31) 在 com.johnsnowlabs.nlp.ParamsAndFeaturesReadable$$anonfun$com$johnsnowlabs$nlp$ParamsAndFeaturesReadable$$onRead$1.apply(ParamsAndFeaturesReadable.scala:30) 在 scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59) 在 scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48) 在 com.johnsnowlabs.nlp.ParamsAndFeaturesReadable$class.com$johnsnowlabs$nlp$ParamsAndFeaturesReadable$$onRead(ParamsAndFeaturesReadable.scala:30) 在 com.johnsnowlabs.nlp.ParamsAndFeaturesReadable$$anonfun$read$1.apply(ParamsAndFeaturesReadable.scala:41) 在 com.johnsnowlabs.nlp.ParamsAndFeaturesReadable$$anonfun$read$1.apply(ParamsAndFeaturesReadable.scala:41) 在 com.johnsnowlabs.nlp.FeaturesReader.load(ParamsAndFeaturesReadable.scala:19) 在 com.johnsnowlabs.nlp.FeaturesReader.load(ParamsAndFeaturesReadable.scala:8) 在 org.apache.spark.ml.util.DefaultParamsReader$.loadParamsInstance(ReadWrite.scala:652) 在 org.apache.spark.ml.Pipeline$SharedReadWrite$$anonfun$4.apply(Pipeline.scala:274) 在 org.apache.spark.ml.Pipeline$SharedReadWrite$$anonfun$4.apply(Pipeline.scala:272) 在 scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234) 在 scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234) 在 scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) 在 scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:186) 在 scala.collection.TraversableLike$class.map(TraversableLike.scala:234) 在 scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:186)
在 org.apache.spark.ml.Pipeline$SharedReadWrite$.load(Pipeline.scala:272) 在 org.apache.spark.ml.PipelineModel$PipelineModelReader.load(Pipeline.scala:348) 在 org.apache.spark.ml.PipelineModel$PipelineModelReader.load(Pipeline.scala:342) 在 com.johnsnowlabs.nlp.pretrained.ResourceDownloader$.downloadPipeline(ResourceDownloader.scala:135) 在 com.johnsnowlabs.nlp.pretrained.ResourceDownloader$.downloadPipeline(ResourceDownloader.scala:129) 在 com.johnsnowlabs.nlp.pretrained.PretrainedPipelinenter code heree.(PretrainedPipeline.scala:14)

我查了一下，该管道中有一个 NER 模型。该 NER 模型是使用 TensorFlow 进行训练的，它有一些contrib其中的代码仅兼容基于 Unix 的操作系统，例如 Linux 和 macOS。这里有一个悬而未决的问题：

https://github.com/tensorflow/tensorflow/issues/26468

为此，他们发布了一些兼容Windows被命名的管道noncontrib。您可以将管道名称更改为以下内容：

val pipeline = PretrainedPipeline("explain_document_dl_noncontrib", lang = "en")

所有预训练管道的来源：https://nlp.johnsnowlabs.com/docs/en/pipelines

全面披露：我是 Spark NLP 库的贡献者之一。

UPDATE：自从 Spark NLP 发布以来2.4.0，所有模型和管道现在都是跨平台的：https://github.com/JohnSnowLabs/spark-nlp-models

如果您使用 Spark NLP 2.4.0 版本，这应该适用于 Linux、macOS 和 Windows：

val pipeline = PretrainedPipeline("explain_document_dl", lang = "en")

2022 年更新：除了 M1 和 aarch64 架构（目前）外，所有 5000 多个模型/管道均兼容 Windows（8、10 和 11）、Linux（Ubuntu、Debian、CentOS 等）和 macOS 操作系统系统。 Spark NLP 模型中心：https://nlp.johnsnowlabs.com/models

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

johnsnowlabssparknlp

Spark-NLP 预训练管道只能在 Linux 系统上运行吗？的相关文章

`if (isset($_SESSION))` 和 `if ($_SESSION)` 之间的区别？

我注意到人们经常简单地写当我一直在使用时有人可以解释检查变量是否设置时的区别这就是我使用它的目的吗在 PHP 中如果变量不存在未设置那么 PHP 将输出一个E NOTICE错误创建缺失的变量并将其分配给NULL 如果您不
删除所有列中具有相同值的行

假设我有一个如下所示的数据框 df options stringsAsFactors F cars lt c Car1 Car2 Car3 Car4 Car5 Car6 Car7 Car8 Car9 test1 lt c 0 0 3 1 4
在 Python3 和 Jupyter Notebook 中，“exit”关键字有什么作用？

我目前在 Jupyter Notebook 中使用 Python3 我刚刚遇到了一个关键字exit 这个关键字有什么作用 with open some file txt as f for lines in f print lines exi
gson - 在序列化任何类型的对象时如何包含类名属性

意识到在应用程序中序列化对象时我需要将类名作为属性包含在内如果我为序列化的任何非原始对象添加类名属性这可能是最好的我看到这是 Genson 的内置功能useClassMetadata方法但我已经在我的项目中使用了 gson 所以如
如何从数据缓冲区执行x86命令？

我的问题主要是针对教授的是关于以奇怪的方式使用 C 的在 C 中变量指针和函数指针之间并没有太大区别我们可以像这样做一些无用的事情 char buff new char 32 void func void buff 但我们几乎创
jQuery 仅在表中突出显示选定的列

我在上面看到这个帖子突出显示偶数列但我可以只突出显示选定的列吗这是他们使用的代码 table Table22 gt tbody gt tr gt td nth child even css background blue 但我想注意 c
我应该如何处理“‘someFunction’不是从‘namespace:somePackage’导出的对象”错误？ [关闭]

Closed 这个问题需要调试细节目前不接受答案我有这个错误 someFunction 不是从 namespace somePackage 导出的对象有谁知道如何解决它一些原因函数不再是包的一部分请尝试 someFunction
循环 uBlas 稀疏矩阵的非零元素

我有以下稀疏矩阵其中包含O N 元素 boost numeric ublas compressed matrix
c 中 printf 语句中的 %.#s 格式说明符

请解释输出什么是 s in printf mean include
如何在R中生成自增ID

我正在寻找一种有效的方法来为我生成的一些合成数据创建唯一的数字 ID 现在我只有一个函数它从全局变量中发出并递增一个值请参见下面的演示代码然而这很混乱因为我必须初始化idCounter变量如果可能的话我宁愿不使用全局变量 Em
如果您更改应用程序在 App Store 上的名称，短链接会更改吗？

我们正在更改 iTunes App Store 上我们的一款应用程序的名称假设我们将应用程序重命名为foo to bar 目前您可以从以下位置下载该应用程序http itunes com app foo 名称更改后短链接也会更改为htt
Android：导航组件中action id和fragment id的区别

有个问题困扰我很久了在导航组件中当使用 navigate int resId 时传递操作 id 与片段 id 有何不同 example
Jackson De/在通用映射中序列化日期到字符串到日期

有很多 Jackson 与 java util Date 代码之间的示例但它们似乎都利用了 POJO 注释我有通用的标量映射我希望将其反序列化为 JSON 这是当前解串器设置很简单的 public class JSONUtils
使用类名创建实例并调用构造函数

有没有办法在给定类名动态的情况下创建特定类的实例并将参数传递给其构造函数就像是 Object object createInstance mypackage MyClass MyAttributeValue Where MyAttri
选择哪个验证框架：Spring Validation 还是 Validation Application Block (Enterprise LIbrary 4.0)？

我正在尝试为主要应用程序选择一种验证框架虽然这两种选择似乎都很诱人但我想知道在选择其中一种之前是否应该了解任何具体的优缺点在我看来使用属性进行验证并不是最好的解决方案首先您必须引用领域模型中的基础设施其次您没有任何机会向编译
Three.js - 使用 CubeTextureLoader 在立方体的每个面上创建不同的图像

我正在尝试使用以下方法创建一个每侧都有不同图像的立方体CubeTextureLoader 我的流程是使用加载立方体纹理new THREE CubeTextureLoader 使用立方体纹理创建新材质使用这种材质创建一个立方体画出立方体
JPA 和 Hibernate 中的无符号整数

我该怎么做才能让 JPA 我使用 Hibernate 创建具有无符号类型的列目前我的所有 ID 列均已签名使用columnDefinition财产在 Column注解应该这样做采取total猜测您要使用的 SQL 类型 private

随机推荐

错误：安装 json 时出错：错误：无法构建 gem 本机扩展

我正在尝试安装 gem json 并收到 json 错误我在跑 Windows 8 1 64 位红宝石红宝石 1 9 3p545 2014 02 24 i386 mingw32 宝石 1 8 2 D GIT calabash gt g
在 Nodejs 中读取原始 http 消息

我正在使用 http request 函数发送 http 请求并且我想读取整个 http 响应如文本即原始的 http 协议文本是否可以我写了下面的代码但它不起作用 Set up the request console log
在java中处理四精度浮点数（128位）

我需要利用来自另一个系统的数字这些数字是java中的128位四精度浮点数考虑到java中没有等效的类型我想使用java代码降低数字的精度以便它们可以存储在java double中这可以在 c 或使用汇编中相当容易地完成但我想
我可以将已保存的 R 对象加载到新的对象名称中吗？

当您使用 R 数据文件保存变量时save 它以保存它的会话中的任何名称保存当我稍后从另一个会话加载它时它会以相同的名称加载加载脚本不可能知道该名称该名称可能会覆盖加载会话中同名的现有变量有没有一种方法可以安全地将对象从数据文件加载
从 web.config 读取会员资格部分

我已经创建了一个自定义成员资格提供程序类到目前为止一切顺利但是我不确定如何从 web config 文件中读取配置设置我尝试从 Google 和 Stackoverflow 进行搜索似乎有人也遇到了我的问题问题并询问但没有给出
Jackson 循环依赖项

我有一个循环依赖我现在正在努力解决它学习这两个课程出于演示目的删除了样板代码 Class 1 Entity Table name T CREDENTIAL Cache usage CacheConcurrencyStrategy RE
strtok 不丢弃换行符

所以我有一个包含一堆名称和数字的输入文件我开始使用 strtok 来分解字符串以便我可以从每个字符串中提取所有数据一切似乎都工作正常但由于某种原因它没有丢弃换行符 int procFile PERSON data FILE fpF
onUserInteraction() 到底什么时候被调用？

在我的应用程序中我有一个线程每隔 60 秒检查一次来自 Web 服务的数据在 onCreate 中定义 new Thread new Runnable Override public void run while true try Th
TextureView 中的抗锯齿

我尝试用SurfaceView and a TextureView并注意到用TextureView比使用更多别名更少平滑 SurfaceView 这是什么原因呢有什么办法可以配置渲染TextureView为了看起来更好 The Tex
用于调用 printf 的 C++11 编译时格式字符串文字构造

我想做的是创建 template
javax.mail.AuthenticationFailedException：535 5.0.0 身份验证失败

我不明白为什么我会得到这个例外这是尝试发送电子邮件的代码 public void sendAsHotmail final String username jTextField14 getText final String password
Kafka Consumer 挂在 java 中的 .hasNext 处

我有一个简单的 Java Kafka Consumer 代码如下 public void run ConsumerIterator
在 ajax 加载的内容上重新运行应用程序 Javascript

我希望我的应用程序中的所有 AJAX 加载内容都由我的应用程序 JQuery 脚本进行评估与正常加载的内容相同例如JQuery 扫描 AJAX 加载的内容以查找选择器例如模式框链接等我所有的 JavaScript 都在普通的 d
HTML5 / JS 存储事件处理程序

我正在使用 Safari webkit 的引擎以及 HTML5 和 JS 来创建一个离线应用程序现在我正在使用sessionStorage数组来存储我的应用程序的状态模拟存储数据与检查器一起工作正常功能工作正常只是事件处理程序没有
调用 WebMethod，传递 Dictionary 作为参数

我正在尝试简化将数据从 WebMethod 层返回到客户端的过程并将来自客户端的参数集表示为Dictionary
从 python 的单词列表中返回一个随机单词

我想使用 python 从文件中检索随机单词但我不相信我的以下方法是最好或有效的请协助 import fileinput import random file line for line in fileinput input etc d
PHP 通过 VPN 发布数据

我需要连接到一个网络服务behind of a VPN通过 PHP 我的服务器是 Debian Linux Squeeze 是否可以在 Linux 上通过 PHP 来完成此任务如果可以的话这样做会有风险吗当VPN连接挂起等时操作系统或
C# 中 JSON 字符串到 CSV 以及 CSV 到 JSON 的转换

我正在我的 asp net Web API 项目中使用 JSON CSV 文件并尝试使用CSV助手 and ServiceStack Text库但无法使其工作包含数组的 JSON 文件是动态的并且可以具有任意数量的字段我使用 Stre
C++ 从数组定义行为中间的指针进行负索引？

include
Spark-NLP 预训练管道只能在 Linux 系统上运行吗？

我正在尝试设置一个简单的代码在其中传递数据帧并使用 johnSnowLabs Spark NLP 库提供的预训练解释管道对其进行测试我正在使用 anaconda 的 jupyter 笔记本并使用 apache toree 设置 Spa

Spark-NLP 预训练管道只能在 Linux 系统上运行吗？

Spark-NLP 预训练管道只能在 Linux 系统上运行吗？ 的相关文章

随机推荐

热门标签

Spark-NLP 预训练管道只能在 Linux 系统上运行吗？的相关文章