我知道外部Python依赖项可以通过requirements.txt文件输入到Dataflow中。我可以在我的数据流脚本中成功加载 nltk。然而,nltk 通常需要下载更多文件(例如停用词或 punkt)。通常在本地运行脚本时,我可以运行
nltk.download('stopwords')
nltk.download('punkt')
这些文件将可供脚本使用。我该如何执行此操作,以便工作脚本也可以使用这些文件。如果每个工作人员只需执行一次这些命令,那么将这些命令放入 doFn/CombineFn 中似乎效率极低。脚本的哪一部分保证在每个工作人员上运行一次?那可能是放置下载命令的地方。
根据this https://stackoverflow.com/questions/30516965/staging-files-on-google-dataflow-worker,Java 允许通过类路径暂存资源。这并不是我在 Python 中寻找的东西。我也不是在寻找加载额外 python 资源的方法。我只需要 nltk 来找到它的文件。
您可以使用“--setup_file setup.py”来运行这些自定义命令。https://cloud.google.com/dataflow/pipelines/dependency-python#pypi-dependency-with-non-python-dependencies https://cloud.google.com/dataflow/pipelines/dependencies-python#pypi-dependencies-with-non-python-dependencies。这对你的情况有效吗?
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)