数据流中的 nltk 依赖关系

2023-12-28

我知道外部Python依赖项可以通过requirements.txt文件输入到Dataflow中。我可以在我的数据流脚本中成功加载 nltk。然而，nltk 通常需要下载更多文件（例如停用词或 punkt）。通常在本地运行脚本时，我可以运行

nltk.download('stopwords')
nltk.download('punkt')

这些文件将可供脚本使用。我该如何执行此操作，以便工作脚本也可以使用这些文件。如果每个工作人员只需执行一次这些命令，那么将这些命令放入 doFn/CombineFn 中似乎效率极低。脚本的哪一部分保证在每个工作人员上运行一次？那可能是放置下载命令的地方。

根据this https://stackoverflow.com/questions/30516965/staging-files-on-google-dataflow-worker，Java 允许通过类路径暂存资源。这并不是我在 Python 中寻找的东西。我也不是在寻找加载额外 python 资源的方法。我只需要 nltk 来找到它的文件。

您可以使用“--setup_file setup.py”来运行这些自定义命令。https://cloud.google.com/dataflow/pipelines/dependency-python#pypi-dependency-with-non-python-dependencies https://cloud.google.com/dataflow/pipelines/dependencies-python#pypi-dependencies-with-non-python-dependencies。这对你的情况有效吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据流中的 nltk 依赖关系的相关文章

如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？

当我远程运行数据管道时会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的并且我在 Google Cloud Dataflow 之上运行它当我在本地运行时管道工作正常以下代码生成 Pi
对 Google Cloud Functions 使用 us-central1 以外的区域

据我所知 Google Cloud Functions 仅在 us central1 中可用因为选择区域的下拉菜单仅允许我选择 us central1 并且当我尝试使用与该区域不同的内容编写自己的部署脚本时像 us east4 这样的选项
bq cmd 查询 Google Sheet 表出现“访问被拒绝：BigQuery BigQuery：未找到具有 Google Drive 范围的 OAuth 令牌”错误

我有一个与Google Sheet连接的表使用WebUI查询该表成功但是如果我使用bq cmd查询它将回显错误消息访问被拒绝 BigQuery BigQuery Google Drive 没有 OAuth 令牌范围已找到我假设你
使用 Java 在 BigQuery 中保存 Array

我正在尝试使用 Spark Big Query 连接器将数据保存到 Big 查询中假设我有一个如下所示的 Java pojo Getter Setter AllArgsConstructor ToString Builder public
如何更改Firebase默认存储桶？

我有2个存储桶一个来自Google云存储一个由firebase创建 firebase创建的存储桶是默认的我想更改默认存储桶并删除firebase创建的存储桶您无法从 Firebase 控制台执行此操作您需要转到 Google Cl
Python google云函数部署失败-Madmom pip包

我正在尝试使用 madmom python pip 包部署 Python3 7 Google Cloud Function 但是指定madmom 0 16 1requirements txt 中的内容导致部署失败当我从requiremen
如何在多租户设置中生成 firebase 自定义令牌

我一直在尝试向我的应用程序添加对多租户的支持我像这样初始化 const app firebase initializeApp const tenantManager app auth tenantManager const tenant
从 Cloud Run 实例调用 Google Cloud API 的延迟

当我出于某种原因从 Cloud Run 实例调用其他云 API 时响应会出现巨大的延迟一切都在 1 个项目内进行即使从本地计算机调用也更快几秒钟但部署在云中某些请求需要几分钟才能完成据我所知它与所有 API 相关除了 Fi
如何在欧洲使用 Cloud Dataflow 区域终端节点？

是否可以将 Google Cloud Platform Dataflow 作业的区域更改为欧洲我已将管道区域设置为europe west1 d但我无法更改工作本身的区域我尝试更改管道选项中的区域但这会导致错误并且只有默认区域有效 p
Apache Beam：如何在使用重复数据删除功能时解决“ParDo 需要确定性密钥编码器才能使用状态和计时器”

我正在尝试使用 Apache Beam 的重复数据删除功能对来自 Google Cloud Pubsub 的输入消息进行重复数据删除但是我创建后遇到错误KV
将侧输入应用于 Apache Beam 中的 BigQueryIO.read 操作

有没有办法将侧面输入应用于 Apache Beam 中的 BigQueryIO read 操作举例来说我在 PCollection 中有一个值我想在查询中使用该值从 BigQuery 表中获取数据使用侧面输入可以吗或者在这种情况下
在 Datalab 中使用 Python3，我无法将代表 Google Cloud Storage 存储桶中的文件的字符串列表作为带有张量流的 feed_dict 提供

我是 tf 新手在尝试处理某些文件时遇到问题这是代码摘录 xlabel to files list map dog bark subset of data with two files result gs some bucket som
如何从“gcloud”工具检索 App Engine 应用程序的源代码？

我已迁移到新系统并丢失了 App Engine 应用程序的本地副本愚蠢的是我没有使用源代码管理我知道我用过gcloud工具来检索我过去项目的源代码但我似乎无法找到如何再次执行此操作我发现的一切都指向如何使用appcfg py 其中
GKE 上的 cloudrun 支持 websocket 吗？

这是我第一次使用 GCP 我正在尝试将我的项目投入生产但在让 websocket 通信正常工作时遇到了问题我一直在谷歌上搜索我非常不清楚 GKE 上运行的云是否支持入站出站 Websocket 连接限制文档指出完全托管的 clo
Google 计算负载均衡器在 DELETE 时抛出 400 Bad Request

我通过实例模板创建了一个实例组并将该实例组与 http 负载均衡器使用的后端服务对齐现在当我从我创建的实例组中打开实例虚拟机的 URL 时我可以执行以下操作GET POST and DELETE请求和所有请求都很快一切都按预期进行
后期数据处理 |阿帕奇光束

错过窗口的迟到数据 withAllowedLateness如记录的那样周期已从管道中消失here https beam apache org documentation programming guide watermarks and l
气流：如何将读取 json 文件的方法放入本地库中

我必须产生一些DAG 我已将 json 表架构文件保存在GCP铲斗 https cloud google com storage docs json api v1 buckets GCP 存储桶上的文件关联到composer将被重新映射到
从 Firestore 获取文档时，我是否也获取该文档内的集合？

如果是的话如何获得它因为在进行文档引用时您只能访问该文档的字段而不能访问集合从 Firestore 获取文档时我是否也得到了该文档内的集合不当获取文档时您只会获取该文档的字段正如本节中所解释的document http
Dataflow sideInput 可以通过读取 gcs 存储桶来更新每个窗口吗？

我目前正在创建一个 PCollectionView 方法是从 gcs 存储桶中读取过滤信息并将其作为侧面输入传递到管道的不同阶段以过滤输出如果 gcs 存储桶中的文件发生更改我希望当前正在运行的管道使用这个新的过滤器信息如果我的过
Python Apache Beam 端输入断言错误

我对 Apache Beam Cloud Dataflow 还很陌生所以如果我的理解不正确我深表歉意我正在尝试通过管道读取大约 30 000 行长的数据文件我的简单管道首先从 GCS 打开 csv 从数据中提取标题通过 ParDo

随机推荐

Java中能否限制输入只能输入数字或者只能输入一定数量的数字？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在 Java 中您可以将使用扫描仪的输入限制为只能输入某些类型例如数字或字母另外您可以将输入限制为可以输入的一定数量的字符吗
Java：将秒输入转换为小时/分钟/秒

这是一个练习题摘自Java 软件解决方案程序设计的基础作者 Lewis Loftus 第 4 版问题 PP2 6 这是一个link http mimoza marmara edu tr odemir Java 20Software 2
R DataFrame 中的集合

我有一个 csv 看起来像 Deamon Host 1 2 4 aaa 03 Pixe Paradigm 1 3 5 11 us 我需要将其读入数据帧中进行分析但数据中的第三列由分隔并且需要像由分割的集合或列表 1 e 一样读取以
为什么受保护的访问修饰符与静态一起使用时与与非静态一起使用时的工作方式不同

通常当我们对类中的字段使用 protected 时由于子类位于不同的包中因此其子类无法使用基类的引用来访问它那是真实的但我发现当 field 添加 static 关键字时它的行为有所不同它变得触手可及这怎么可能有谁有答案吗
JTable 中的日期排序无效

请看下面的代码 import java awt import java awt event import java text NumberFormat import java text ParseException import java
使用和串流

我调用 Soap 扩展中的方法来解密和验证 Soap 消息我有这样的课程我有一个类它解密并验证签名 Soap 消息它在 Soap 扩展类中返回流方法 DecryptAndVerifySingXml 和 GetGuid 使用类肥皂扩
雅虎电影 API 文档 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试使用新的未发布的 Yahoo Movies API 但找不到任何有关它的官方或非官方文档有
C# 如何检查当前字符串的日期是否是今天？

我有一个格式为字符串通用时间的日期请参阅MSDN 链接在这里 http msdn microsoft com en us library ms684436 28VS 85 29 aspx 我需要检查这个日期是否是今天以及是否是 do
C 中数组的数组，其中数组的长度不同

我知道你可以轻松地制作一个固定长度的矩阵 double m 2 但是我想要一个数组数据结构其中存储具有不同长度的双精度类型数组我怎么做一个例子是 arr1 1 2 3 4 arr2 1 2 锯齿状阵列 https en wikipe
如何在xamarin跨平台应用程序中使用Web Api

我创建了从 SQL 数据库检索数据的 Web api 我需要在适用于 Android 的 xamrin 和适用于 iOS 的 xamarin 中使用 Web api 截至目前适用于 Android 的 Xamarin 我不知道如何根据按钮
如何从视图列将分类列总计转换为 XPageTotal 值

我需要获取根据文档 ID 分类视图的列的总和我能够使用以下代码获得整列的总和 var myView NotesView database getView totalScore var nav NotesViewNavigator myVi
模拟弹簧控制器验证器

我想对这个 Spring 控制器方法进行单元测试 Autowired private MyValidator validator public String register HttpServletRequest request Model
我们怎样才能让微软在VS 2010专业版中添加IntelliTrace呢？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案既然 Microsoft 已经发布了 VS 2010 我就进入了产品页面here http www microsoft com visualstudi
通过“添加到购物车”贝宝购买多件商品

我正在努力通过添加到购物车贝宝按钮购买不止一件商品这是我的代码
如何检测安装了哪些 .NET Framework 版本和服务包？

有人问了类似的问题here https stackoverflow com questions 198931 how do i tell if net 35 sp1 is installed 但它特定于 NET 3 5 具体来说我正在寻找
如何解决 java.lang.VerifyError: org/apache/poi/xssf/usermodel/XSSFWorkbook？

我正在尝试从 asset 文件夹中读取 xlsx 文件我收到以下异常 05 16 10 12 05 613 E AndroidRuntime 2915 致命异常主要 05 16 10 12 05 613 E AndroidRuntime
iOS 在滚动视图之间拖放

所以这就是问题所在我有两个滚动视图其中一个充满了 10 个奇怪的子视图基本上就像扑克牌自定义类视图我希望能够将其中一些视图拖放到我拥有的空滚动条中这两个滚动视图之间有许多不同的视图所以我想显示实际从一个视图拖动并放置在另一个滚
spectj 中 .. 和 * 是什么意思

我的理解是 is 0 Many参数和是一个参数any姓名它是否正确 spectj 是否支持类似语法args myArg 这是来自 AspectJ 网站 http www eclipse org aspectj doc next prog
跨界棋盘算法改进

感谢大卫卡恩的书古代密码学成为我的爱好之一我正在尝试在 Ruby 类中实现来处理旧密码例如虚无主义密码 http en wikipedia org wiki Nihilist cipher and ADFGVX http en wi
数据流中的 nltk 依赖关系

我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件例如停用词或 punkt 通常在本地运行脚本时我可以运行

数据流中的 nltk 依赖关系

数据流中的 nltk 依赖关系 的相关文章

随机推荐

热门标签

数据流中的 nltk 依赖关系的相关文章