数据流中的 nltk 依赖关系

2023-12-28

我知道外部Python依赖项可以通过requirements.txt文件输入到Dataflow中。我可以在我的数据流脚本中成功加载 nltk。然而,nltk 通常需要下载更多文件(例如停用词或 punkt)。通常在本地运行脚本时,我可以运行

nltk.download('stopwords')
nltk.download('punkt')

这些文件将可供脚本使用。我该如何执行此操作,以便工作脚本也可以使用这些文件。如果每个工作人员只需执行一次这些命令,那么将这些命令放入 doFn/CombineFn 中似乎效率极低。脚本的哪一部分保证在每个工作人员上运行一次?那可能是放置下载命令的地方。

根据this https://stackoverflow.com/questions/30516965/staging-files-on-google-dataflow-worker,Java 允许通过类路径暂存资源。这并不是我在 Python 中寻找的东西。我也不是在寻找加载额外 python 资源的方法。我只需要 nltk 来找到它的文件。


您可以使用“--setup_file setup.py”来运行这些自定义命令。https://cloud.google.com/dataflow/pipelines/dependency-python#pypi-dependency-with-non-python-dependencies https://cloud.google.com/dataflow/pipelines/dependencies-python#pypi-dependencies-with-non-python-dependencies。这对你的情况有效吗?

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据流中的 nltk 依赖关系 的相关文章

随机推荐

  • Java中能否限制输入只能输入数字或者只能输入一定数量的数字? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 在 Java 中 您可以将使用扫描仪的输入限制为只能输入某些类型 例如数字或字母 另外 您可以将输入限制为可以输入的一定数量的字符吗
  • Java:将秒输入转换为小时/分钟/秒

    这是一个练习题 摘自Java 软件解决方案 程序设计的基础作者 Lewis Loftus 第 4 版 问题 PP2 6 这是一个link http mimoza marmara edu tr odemir Java 20Software 2
  • R DataFrame 中的集合

    我有一个 csv 看起来像 Deamon Host 1 2 4 aaa 03 Pixe Paradigm 1 3 5 11 us 我需要将其读入数据帧中进行分析 但数据中的第三列由 分隔 并且需要像由 分割的集合或列表 1 e 一样读取 以
  • 为什么受保护的访问修饰符与静态一起使用时与与非静态一起使用时的工作方式不同

    通常 当我们对类中的字段使用 protected 时 由于子类位于不同的包中 因此其子类无法使用基类的引用来访问它 那是真实的 但我发现当 field 添加 static 关键字时 它的行为有所不同 它变得触手可及 这怎么可能 有谁有答案吗
  • JTable 中的日期排序无效

    请看下面的代码 import java awt import java awt event import java text NumberFormat import java text ParseException import java
  • 使用和串流

    我调用 Soap 扩展中的方法来解密和验证 Soap 消息 我有这样的课程 我有一个类 它解密并验证签名 Soap 消息 它在 Soap 扩展类中返回流 方法 DecryptAndVerifySingXml 和 GetGuid 使用类肥皂扩
  • 雅虎电影 API 文档 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在尝试使用新的未发布的 Yahoo Movies API 但找不到任何有关它的官方或非官方文档 有
  • C# 如何检查当前字符串的日期是否是今天?

    我有一个格式为 字符串 通用时间 的日期 请参阅MSDN 链接在这里 http msdn microsoft com en us library ms684436 28VS 85 29 aspx 我需要检查这个日期是否是今天以及是否是 do
  • C 中数组的数组,其中数组的长度不同

    我知道你可以轻松地制作一个固定长度的矩阵 double m 2 但是 我想要一个数组数据结构 其中存储具有不同长度的双精度类型数组 我怎么做 一个例子是 arr1 1 2 3 4 arr2 1 2 锯齿状阵列 https en wikipe
  • 如何在xamarin跨平台应用程序中使用Web Api

    我创建了从 SQL 数据库检索数据的 Web api 我需要在适用于 Android 的 xamrin 和适用于 iOS 的 xamarin 中使用 Web api 截至目前 适用于 Android 的 Xamarin 我不知道如何根据按钮
  • 如何从视图列将分类列总计转换为 XPageTotal 值

    我需要获取根据文档 ID 分类视图的列的总和 我能够使用以下代码获得整列的总和 var myView NotesView database getView totalScore var nav NotesViewNavigator myVi
  • 模拟弹簧控制器验证器

    我想对这个 Spring 控制器方法进行单元测试 Autowired private MyValidator validator public String register HttpServletRequest request Model
  • 我们怎样才能让微软在VS 2010专业版中添加IntelliTrace呢? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 既然 Microsoft 已经发布了 VS 2010 我就进入了产品页面here http www microsoft com visualstudi
  • 通过“添加到购物车”贝宝购买多件商品

    我正在努力通过 添加到购物车 贝宝按钮购买不止一件商品 这是我的代码
  • 如何检测安装了哪些 .NET Framework 版本和服务包?

    有人问了类似的问题here https stackoverflow com questions 198931 how do i tell if net 35 sp1 is installed 但它特定于 NET 3 5 具体来说 我正在寻找
  • 如何解决 java.lang.VerifyError: org/apache/poi/xssf/usermodel/XSSFWorkbook?

    我正在尝试从 asset 文件夹中读取 xlsx 文件 我收到以下异常 05 16 10 12 05 613 E AndroidRuntime 2915 致命异常 主要 05 16 10 12 05 613 E AndroidRuntime
  • iOS 在滚动视图之间拖放

    所以这就是问题所在 我有两个滚动视图 其中一个充满了 10 个奇怪的子视图 基本上就像扑克牌 自定义类视图 我希望能够将其中一些视图拖放到我拥有的空滚动条中 这两个滚动视图之间有许多不同的视图 所以我想显示实际从一个视图拖动并放置在另一个滚
  • spectj 中 .. 和 * 是什么意思

    我的理解是 is 0 Many参数和 是一个参数any姓名 它是否正确 spectj 是否支持类似语法args myArg 这是来自 AspectJ 网站 http www eclipse org aspectj doc next prog
  • 跨界棋盘算法改进

    感谢大卫 卡恩的书 古代密码学成为我的爱好之一 我正在尝试在 Ruby 类中实现来处理旧密码 例如虚无主义密码 http en wikipedia org wiki Nihilist cipher and ADFGVX http en wi
  • 数据流中的 nltk 依赖关系

    我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中 我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件 例如停用词或 punkt 通常在本地运行脚本时 我可以运行