Lambda 不支持 NLTK 文件大小

2024-04-04

我正在编写一个 python 脚本来分析一段文本并以 JSON 格式返回数据。我正在使用 NLTK 来分析数据。基本上，这是我的流程：

创建端点（API 网关）-> 调用我的 lambda 函数-> 返回所需数据的 JSON。

我编写了脚本，部署到 lambda 但遇到了这个问题：

资源\u001b[93mpunkt\u001b[0m 未找到。请使用NLTK 下载器获取资源：

\u001b[31m>>> 导入 nltk nltk.download('punkt') \u001b[0m
搜索于： - '/home/sbx_user1058/nltk_data' - '/usr/share/nltk_data' - '/usr/local/share/nltk_data' - '/usr/lib/nltk_data' - '/usr/local/lib/nltk_data' - '/var/lang/nltk_data' - '/var/lang/lib/nltk_data'

即使下载了“punkt”后，我的脚本仍然给我同样的错误。我在这里尝试了解决方案：

优化Python脚本提取和处理大数据文件 https://stackoverflow.com/questions/15905075/optimizing-python-script-extracting-and-processing-large-data-files

但问题是，nltk_data 文件夹很大，而 lambda 有大小限制。

我该如何解决这个问题？或者我还可以在哪里使用我的脚本并仍然集成 API 调用？

我正在使用无服务器来部署我的 python 脚本。

您可以做两件事：

这些错误似乎路径没有正确定义，也许将其设置为环境变量？

sys.path.append(os.path.abspath('/var/task/nltk_data/')

或者这样

一旦你跑了nltk.download()，然后将其复制到 AWS lambda 应用程序的根文件夹。（将该目录命名为“nltk_data”。）
在 lambda 函数仪表板（在 AWS 控制台中）中，添加NLTK_DATA=./nltk_data作为 key-var 环境变量。

减少 nltk 下载的大小，因为您不需要所有这些。
1. 删除所有 zip 文件，仅保留所需部分，例如：停用词。可以将其移至：save nltk_data/corpora/stopwords并删除其余部分。
2. 或者如果您需要标记器保存到nltk_data/tokenizers/punkt。其中大部分可以单独下载：python -m nltk.downloader punkt，然后复制文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

amazonwebservices

Lambda

Lambda 不支持 NLTK 文件大小的相关文章

补丁 - 为什么相对补丁目标名称不起作用？

我已经从模块导入了一个类但是当我尝试修补类名而不使用模块作为前缀时出现类型错误 TypeError Need a valid target to patch You supplied MyClass 例如以下代码给出了上述错误 imp
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
删除 Django 1.7 中的应用程序（和关联的数据库表）

是否可以使用 Django 1 7 迁移来完全删除卸载应用程序及其所有跟踪主要是其所有数据库表如果没有在 Django 1 7 中执行此操作的适当方法是什么 python manage py migrate
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
Pandas：如果单元格包含特定文本则删除行

pandas 中的这段代码不起作用如果该列包含提供的任何文本数字我希望它删除该行目前我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
一段时间后终止线程的最 Pythonic 方法

我想在线程中运行一个进程它正在迭代一个大型数据库表当线程运行时我只想让程序等待如果该线程花费的时间超过 30 秒我想终止该线程并执行其他操作通过终止线程我的意思是我希望它停止活动并优雅地释放资源我认为最好的方法是通过Thre
Gspread如何复制sheet

在 Stackoverflow 上进行谷歌搜索和搜索后我想我找不到有关如何复制现有工作表现有模板工作表并将其保存到另一个工作表中的指南根据文档有重复表 https gspread readthedocs io en latest
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
Tensorflow 与 Keras 的兼容性

我正在使用 Python 3 6 和 Tensorflow 2 0 并且有一些 Keras 代码 import keras from keras models import Sequential from keras layers impo
SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

此问题与 smtplib 的 SMTP SSL 连接有关当与 SMTP 无 ssl 连接时它正在工作在 SMTP SSL 中尝试相同的主机和端口时出现错误该错误仅基于主机 gmail 设置也工作正常请检查下面的示例如果 Out
Jython 和 SAX 解析器：允许的实体不超过 64000 个？

我做了一个简单的测试xml saxJython 中的解析器在处理大型 XML 文件 800 MB 时遇到以下错误 Traceback most recent call last File src project xmltools py li
如何在 C# 中获取 Json 数组？

我有一个像这样的 Json 字符串我想将它加载到 C 数组中当我尝试这样做时我收到异常我的字符串 customerInformation customerId 123 CustomerName Age 39 Gender Male
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这

随机推荐

如何转义双引号作为 NUnit TestCase 的参数？

我尝试为用 VB net 编写的 NUnit 测试编写以下 TestCase
如何将同义词词典添加到mysql全文搜索？

这样如果我搜索术语男士术语绅士就会匹配我试过这个 SELECT FROM cart product WHERE MATCH product name product description product brand metal
AppSync BatchResolver AssumeRole 错误

我正在尝试使用新的 DynamoDB BatchResolvers 写入 AppSync 解析器中的两个 DynamoDB 表当前使用 Lambda 函数来执行此操作但是在查看 CloudWatch 日志时我收到以下权限错误 Use
Patindex() 函数的用法

我在用patindex用于 MD 或 DO 的模式搜索下面的语句返回3 我是否以错误的方式使用它或者是否有其他检查条件的方法 select PATINDEX MD DO FHoisegh MD select T Value from v
angular2 – 通过自定义管道使用全局服务

我正在玩一点 Angular 2 到目前为止我构建了一个拥有接口的全局服务其他组件正在使用这个全局服务的接口如果通过组件更改界面则子组件的界面也会更改现在我正在尝试通过管道来处理这个问题但是当我通过子组件更改接口值时其他组件
QSerialPort可以读取超过512字节的数据吗？

我想使用 QSerialPort 读取从设备传输的数据设备每次发送一帧4000个数据字节我尝试使用以下简单的代码 QSerialPort serialPort char receivedData 4000 int numRead 0 M
将响应结果作为数组而不是 Web 服务中的对象获取

有一个 php 应用程序将从我创建的 Web 服务中读取结果他们想要的 xml 响应就像
如何在非阻塞套接字上处理 OpenSSL SSL_ERROR_WANT_READ / WANT_WRITE

OpenSSL 库允许使用 SSL read 从底层套接字读取数据并使用 SSL write 写入数据这些函数可能会返回 SSL ERROR WANT READ 或 SSL ERROR WANT WRITE 具体取决于它们的 ssl 协议
我在设置 Windows 服务时遇到问题

我正在尝试设置 Windows 服务但是当我构建设置时输出是这样的 Build started Project TwitterService Configuration Debug Any CPU TwitterService gt C
使用 myBatis 从数据库中以 byte[] 的形式获取 blob

我在一个项目中使用 spring MyBatis 1 2 0 其中有一个查询从 Oracle 11g 数据库中的 BLOB 字段获取数据我想以字节数组 byte 的形式检索该字段我的代码是
平均执行时间

有没有什么好的 GNU 方法来测量某些命令行程序的平均最坏情况最好情况执行时间我有图像过滤器未指定数量的图片使用 bash 中的 for 循环过滤它们到目前为止我正在使用time 但我找不到如何获取一些统计数据的方法您可以将
将 XYZ 点云转换为灰度图像

每个人我正在尝试使用 python 将点云 X Y Z 转换为灰度图像我了解到灰度图像可以由 Numpy 数组生成但我现在拥有的是一组包含 X Y 和高度的点我想根据 X Y 和灰度值即高度生成灰度图像有人能给我一个关于这个的
我的驱动程序模块的内核输出奇怪的 dmesg

从我之前的问题为什么模块加载失败 dev scull0 没有这样的设备或地址 https stackoverflow com questions 62019834 why does module failed to load dev scu
Flask：为什么 app.route() 装饰器应该总是在最外面？

说吧我有一个手工制作的 login required装饰器 from functools import wraps def login required decorated function Decorator to check if u
在 Windows 中将 Boost 与 CMake 和 Visual Studio 链接的正确方法是什么？

我正在尝试为 Visual Studio 2012 生成一些我需要的 Boost 1 58 库 chrono 正则表达式和线程并将这些库与 CMake 链接我在 CMake 和 Visual Studio 查找或链接库时遇到了真正的问题
SQLite 参数替换和引号

我有这条线工作正常 c execute select cleanseq from cleanseqs WHERE newID s name 但我想使用 SQLite 参数替换而不是字符串替换因为我看到here http docs pyth
在画布上的精确位置创建输入文本字段？

Canvas 可以绘制文本但无法创建输入文本字段这意味着必须在 html 中执行此操作但是如何才能确保将该文本字段准确定位在您想要的位置呢我希望能够在运行时以编程方式执行此操作创建以下 HTML 结构以将输入框放置在画布上 div
判断字符串中的所有字母是否按字母顺序排列 JavaScript

我正在尝试编写一个 JavaScript 函数来确定字符串中的所有字母是否按字母顺序排列以下内容将继续返回 SyntaxError 意外的令牌默认值 function orderedWords str var s str toLowerC
在 ASP.NET MVC Web API 服务和 MVC 客户端架构中实现身份验证和基于角色的授权

在为我的 Web API 服务 MVC 客户端架构项目实现身份验证授权场景时我很难决定一种方法尽管我已经在 Web API 项目中实现了基于自定义令牌的身份验证但我发现很难准确地在哪里实现授权在客户端或 API 本身架构概述
Lambda 不支持 NLTK 文件大小

我正在编写一个 python 脚本来分析一段文本并以 JSON 格式返回数据我正在使用 NLTK 来分析数据基本上这是我的流程创建端点 API 网关 gt 调用我的 lambda 函数 gt 返回所需数据的 JSON 我编写了脚本

Lambda 不支持 NLTK 文件大小

Lambda 不支持 NLTK 文件大小 的相关文章

随机推荐

热门标签

Lambda 不支持 NLTK 文件大小的相关文章